作者:Ofir Zafrir , Ariel Larey , Guy Boudoukh 等

简介:本文研究稀疏预训练语言模型的修剪蒸馏。基于 Transformer 的语言模型被广泛应用于自然语言处理中。但是它们大都效率低下且难以部署。近年来,人们提出了许多压缩算法来提高基于 Transformer 的大型模型在目标硬件上的实现效率。在这项工作中,作者提出了一种通过集成权重修剪和模型蒸馏来训练稀疏预训练 Transformer 语言模型的新方法。这些稀疏的预训练模型可用于为广泛的任务迁移学习,同时保持其稀疏模式。本研究使用三种已知架构演示了作者的方法,以创建稀疏的预训练 BERT-Base、BERT-Large 和 DistilBERT。本研究展示了作者训练的压缩稀疏预训练模型:如何以最小的精度损失将它们的知识转移到五个不同的下游自然语言任务中。此外,作者还展示了如何使用量化感知训练将稀疏模型的权重进一步压缩到 8 位精度。例如,通过作者在 SQuADv1.1 上微调并量化为 8 位的稀疏预训练 BERT-Large,作者实现了压缩比为40X 表示编码器小于 %精度损失。据作者所知,本研究的结果展示了 BERT-Base、BERT-Large 和 DistilBERT 的最佳压缩精度比。

注:本文发表在ENLSP NeurIPS Workshop 2021。

论文下载:https://arxiv.org/pdf/2111.05754.pdf

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除