标题:北大,阿里|Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese

Pre-trained Language Models(Lattice-BERT:利用中文的多粒度表示预训练语言模型)

简介:中文预训练语言模型将文本通常处理为字符序列,而忽略更粗粒度,例如单词。在这项工作中,我们提出了一种新的预训练中文方法Lattice-BERT,其中明确地包含单词连同字符一起表示,因此可以以多粒度的方式对句子建模。具体来说,我们从句子和提要中的字符和单词所有这些文本单元都输入变换器。我们设计了一个格子位置注意机制来在自注意力中利用晶格结构层。我们进一步提出了遮罩的细分预测任务,以推动模型学习来自丰富但冗余的内在信息格状。在11种中文语言理解任务上表明,在12层设置下,模型可以带来1.5%的平均增长,在CLUE基准测试上取得了最佳效果。

论文链接:https://arxiv.org/pdf/2104.07204.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除