【论文标题】Model Compression with Two-stage Multi-teacher Knowledge Distillation for Web Question Answering System
【作者团队】微软STCA NLP组:Ze Yang、Linjun Shou、Ming Gong
【发表时间】2019/10/18
【论文链接】https://arxiv.org/pdf/1910.08381.pdf
【推荐理由】本文发表在WSDM 2020上,研究内容是在自然语言处理问答任务上做知识蒸馏从而达到模型压缩的效果。先前的模型压缩工作一定程度上解决了预训练模型参数庞大、计算复杂度高的困境,但随之而来又有了模型信息丢失的问题。作者为解决这一问题,在Web问答系统任务上提出了“两阶段多教师(TMKD)”蒸馏方法,首先在问答系统上进行一般的蒸馏任务,对学生模型进行预训练,接着用多教师模型蒸馏的方法在下游任务上进行微调。这样的方法能够有效降低单个教师模型的过拟合的偏置,实验证明作者提出的方法能够优于同类知识蒸馏的基线模型,并达到与教师模型接近的准确率,同时又能够显著降低模型的推断时间。本文是知识蒸馏这一领域较具参考价值的一篇,具体是提出的两阶段训练框架比较新颖独特,无论从设计思路还是任务选取上都很合理,并且能够从大多数单一教师模型的思路转变到多教师模型蒸馏,作者也通过实验证明了TMKD模型的有效性。
图1 两阶段多教师模型蒸馏模型整体结构示意
本文主要创新点和贡献在于:
● 利用大规模无标签的“问题-检索文本”数据集进行一般蒸馏预训练任务,预训练的蒸馏模型可以直接用在许多文本匹配相关的任务;
● TMKD模型的微调阶段,设计了多模型蒸馏范式,在下游任务上微调的同时能够从多个教师模型当中学习知识,这样的方法能够很好的缓解单个模型的过拟合偏置问题,得到的学生模型能够达到或者优于教师模型的表现;
● 在大规模数据集上,和多个基线模型进行对比实验,证明了模型的有效性,并在一些商业场景中进行了推广。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢