论文标题:

Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains

收录会议:

ACL 2021

论文链接:

https://arxiv.org/abs/2106.13474

代码链接:

https://github.com/microsoft/unilm/tree/master/adalm

大型预训练模型在许多自然语言处理任务中取得了巨大的成功。然而,当这些模型应用于特定的领域时,往往会出现领域迁移(domain shift)的问题,并且会因为延迟和容量限制原因,为微调和在线服务带来挑战。

在本文中,作者引入了框架 AdaLM,来开发用于特定领域的小型、快速且有效的预训练语言模型。

具体是通过适应(adapt)现有的通用预训练模型和在目标领域执行任务独立的知识蒸馏(knowledge distillation)来实现的。作者提出在 adaptation 适应阶段进行特定领域的词汇扩展,并根据语料库的出现概率来自动选择增量词汇的大小。

然后,为压缩用于特定领域的大型预训练模型,作者系统地探讨了不同的压缩策略。作者在生物医学和计算机科学领域上进行了实验,实验结果表明,在特定领域的任务中,该方法比 BERT-BASE 模型具有更好的性能,而且比 BERT-BASE 模型小 3.3 倍,快 5.1 倍。

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除