微软提出AdaLM，用于开发小型、快速且有效的领域预训练语言模型

论文标题：

Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains

收录会议：

ACL 2021

论文链接：

代码链接：

大型预训练模型在许多自然语言处理任务中取得了巨大的成功。然而，当这些模型应用于特定的领域时，往往会出现领域迁移（domain shift）的问题，并且会因为延迟和容量限制原因，为微调和在线服务带来挑战。

在本文中，作者引入了框架 AdaLM，来开发用于特定领域的小型、快速且有效的预训练语言模型。

具体是通过适应（adapt）现有的通用预训练模型和在目标领域执行任务独立的知识蒸馏（knowledge distillation）来实现的。作者提出在 adaptation 适应阶段进行特定领域的词汇扩展，并根据语料库的出现概率来自动选择增量词汇的大小。

然后，为压缩用于特定领域的大型预训练模型，作者系统地探讨了不同的压缩策略。作者在生物医学和计算机科学领域上进行了实验，实验结果表明，在特定领域的任务中，该方法比 BERT-BASE 模型具有更好的性能，而且比 BERT-BASE 模型小 3.3 倍，快 5.1 倍。

内容中包含的图片若涉及版权问题，请及时与我们联系删除