【论文标题】Distilling the Knowledge in a Neural Network 【作者团队】 Geoffrey Hinton, Oriol Vinyals, Jeff Dean 【发表时间】2014/03/09 【论文链接】https://arxiv.org/abs/1503.02531 【推荐理由】 这篇文章是图灵奖得主Geoffrey Hinton在2014年刊出在NIPS2014上的一篇非常经典的文章,迄今引用量已经达到六千多次。如今BERT等预训练模型的提出极大的推动了NLP领域的发展,也让人们重新思考如何把巨大的模型中的知识蒸馏到小模型当中,这篇论文的关注度也随之提高。Hinton等人在论文中首先指出,最早的提升模型准确率的方法是简单的集成方法,把同一数据集下训练的不同模型的结果进行平均,作为最终的预测值。但这种方法的代价就是在推断的时候由于模型巨大而速度缓慢。这样的思想正契合了当前深度学习模型庞大的现状。于是Hinton借鉴Caruana的说法,把集成的大模型中的知识蒸馏到小的模型当中。具体的做法是首先训练一个大的网络,最后的softmax层使用合适的温度T得到一个概率值作为“软目标”。用这个软目标和真实标签构建目标函数,去训练比较小的网络。

现在主流的知识蒸馏方法虽然和这篇论文提出具体方法有所不同,但是本文提出的思想在当时可以说具有开创意义,因此也被认为是知识蒸馏领域的开山之作。其主要思想就是把大的网路压缩成小的网络,训练阶段可以花费大量精力,但在部署的时候以较小的计算代价来产生一个较小的网络,同时保持一定的准确率。

内容中包含的图片若涉及版权问题,请及时与我们联系删除