标题:百度|ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding(多粒度语言知识增强模型 ERNIE-Gram)

简介:粗粒度的语言信息,例如命名的实体或词组,有助于在预训练中充分地学习表征。以前的工作主要集中在扩展BERT的掩盖语言建模(MLM)的目标上,即掩盖单个符号到n个标记的连续序列。我们认为这种连续掩盖方法忽略对内部依赖关系建模粗粒度语言信息之间的相互关系。作为替代方案,我们提出了ERNIE-Gram,这是一种显式的n-gram掩盖方法加强将粗粒度信息集成到预训练中。在ERNIE-Gram,使用明确的n-gram身份而不是n个标记的连续序列直接屏蔽和预测n-gram。此外,ERNIE-Gram使用生成器模型来样本似然n-gram身份作为可选n-gram掩码并以粗粒度和细粒度方式预测它们以启用全面的n-gram预测和关系建模。我们预训练ERNIE-Gram关于中英文文本语料库的知识,并对19个下游任务进行微调。实验性结果显示ERNIE-Gram比先前的预训练模型,例如XLNet和RoBERTa,大获成功。

下载地址:https://arxiv.org/pdf/2010.12148

内容中包含的图片若涉及版权问题,请及时与我们联系删除