MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices

自然语言处理最近取得了巨大的成功,它使用了带有数亿个参数的巨大的预先训练的模型。然而,这些模型存在模型大小过大和延迟时间长等问题,因此无法部署到资源有限的移动设备上。在本文中,作者提出了压缩和加速BERT模型的MobileBERT。与最初的BERT一样,MobileBERT是与任务无关的,也就是说,它可以通过简单的微调应用于各种下游NLP任务。MobileBERT配备了瓶颈结构和精心设计的自注意力机制和前馈网络之间的平衡。为了训练MobileBERT,作者首先训练一个特别设计的teacher模型,然后把teacher的知识传递给MobileBERT。实证研究表明,MobileBERT比BERT_BASE小4.3倍,快5.5倍,同时在著名的基准上都取得了有竞争力的结果。

内容中包含的图片若涉及版权问题,请及时与我们联系删除