多语境下的预训练语言模型:通过扩展语言数量与MLM自监督训练实现跨语言理解
自然语言处理领域中,预训练语言模型(PLM)已成为至关重要的基础技术。在多语言研究中,通过在预训练阶段增加语言数量、采用MLM(掩码语言模型)自监督训练等方式,预训练模型得以具备多语言和跨语言理解的强大能力。为了推动中国少数民族语言信息处理的研究与发展,哈工大讯飞联合实验室(HFL)发布了少数民族语言预训练模型CINO(Chinese mINOrity PLM)。该模型的问世为跨文化交流、信息处理等领域提供了有力支持。
下载地址
用户评论