1. 首页
  2. 移动开发
  3. 其他
  4. WoBERT:以词为基本单位的中文BERT 源码

WoBERT:以词为基本单位的中文BERT 源码

上传者: 2021-04-06 05:13:05上传 ZIP文件 18KB 热度 21次
沃伯特 以词为基本单位的中文BERT(基于单词的BERT) 详情 训练 目前开源的WoBERT是基本版本,在哈工大开源的基础上进行继续预训练,预训练任务为MLM。初始化阶段,将每个词用BERT自带的Tokenizer切分为字,然后用模型使用单张24G的RTX训练了100万步(大概训练了10天),序列长度为512,学习5e-6,batch_size为16,累积梯度16步,,等于batch_size = 256训练了6万步左右。训练语料大概是30多G的通用型语料。 此外,我们还提供了WoNEZHA,这是基于华为开源的进行再预训练的,训练细节跟WoBERT基本一样。NEZHA的模型结构跟BERT相似,不同的是它使用了相对位置编码,而BERT用的是绝对位置编码,因此理论上NEZHA能处理的文本长度是无上限的。这里提供以词为单位的WoNEZHA,就是让大家多一个选择。 2021年03月03日:添加
下载地址
用户评论