【论文标题】Contrastive Distillation on Intermediate Representations for Language Model Compression 【作者团队】Siqi Sun, Zhe Gan, Yu Cheng, Yuwei Fang, Shuohang Wang, Jingjing Liu 【发表时间】2020/09/29 【论文链接】https://arxiv.org/abs/2009.14167 【参考链接】https://github.com/intersun/CoDIR 【推荐理由】本文收录于EMNLP2020会议,来自微软Dynamics 365 AI Reserach 的研究人员提出在语言模型压缩中针对中间表示的对比蒸馏。

现有的语言模型压缩方法大多使用简单的L2损失,将large BERT模型的中间表示的知识蒸馏为较小的表示形式。尽管这一设计目标已经广泛使用,但其设计目的是假定隐层表示的所有维度都是独立的,不能在教师网络的中间层中捕获到重要的结构知识。为了达到更好的蒸馏效果,研究人员提出针对语言模型压缩中间表示的对比蒸馏(CoDIR),这是一个原则性的知识蒸馏框架,训练学生模型通过对比目标从教师模型的中间层蒸馏知识。CoDIR学习将阳性样本和大量阴性样本进行区分,这有助于学生模型利用教师模型隐层中的丰富信息。CoDIR能够轻松应用于预训练和微调阶段的大规模语言模型压缩中,并在GLUE基准上获得了卓越的性能,优于最先进的压缩方法。 语言模型压缩中间表示的对比蒸馏框架(CoDIR)

内容中包含的图片若涉及版权问题,请及时与我们联系删除