威震天3d 源码
是由NVIDIA应用深度学习研究团队开发的大型强大变压器。 该存储库用于正在进行的大规模培训大型变压器语言模型的研究。 我们使用混合精度开发了和高效,模型并行和多节点训练。 使用我们的GPT-2模型,我们在WikiText-103数据集上实现了10.8的困惑度(从15.8改进了SOTA),在LAMBADA数据集上实现了66.5%的准确性。 对于BERT训练,我们交换了层归一化的位置和模型体系结构(类似于GPT-2体系结构)中的剩余连接的位置,这使模型在按比例放大时得以继续改进。 我们的BERT模型具有39亿个参数,损耗为1.16,SQuAD 2.0 F1分数为91.7,RACE精度为90.9
下载地址
用户评论