模型蒸馏是当下较为主流的模型压缩方法,通过将大规模教师模型的知识传递给小规模学生模型,从而既能降低模型大小,提升推理速度,又能得到与原模型基本相当的表现。之前分享的几篇论文大多是对蒸馏目标函数及学生模型架构的探究,但本文的作者转而对教师模型的知识传达能力进行了探究。
最终,作者提出了基于 Meta Learning 的 MetaDistil 方法,同时考虑了提升教师模型的知识传达能力和学生模型的知识获取能力。实验表明,MetaDistil 压缩的模型在多个 benchmark 上都优于传统蒸馏方法,同时对学生模型的参数敏感性更低,可以更加灵活的应用在不同的下游任务和模型上。

论文标题:

BERT Learns to Teach: Knowledge Distillation with Meta Learning

论文链接:

https://arxiv.org/abs/2106.04570

代码链接:

https://github.com/JetRunner/MetaDistil

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除