随着大规模预训练模型(PLMs)越来越大,对其进行模型压缩的需求也越来越高。尽管已经有较多研究针对 BERT 进行了压缩,但是针对一般的生成式 PLMs 的尝试都效果不大,且原因不明。本文提出了可能的两个原因:词嵌入同质化以及权重分布差异,并分别提出了 token 级别的对比学习蒸馏以及模块级别的动态缩放方法针对性的解决这两个问题。实验表明本文提出的压缩方法分别将 GPT-2 和 BART 压缩了 14.4 倍和 13.4 倍,且在多个数据集上均取得了与原模型相当的表现。

论文标题:

Compression of Generative Pre-trained Language Models via Quantization

收录会议:

ACL 2022

论文链接:

https://arxiv.org/abs/2203.10705

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除