深度学习通过参数量巨大的模型,近几年中在多个领域取得了较好的效果,但是往往因为模型体积过大(模型的体积指的就是模型的大小,比如 ResNet18 体积为 44.6MB 等)、计算耗时等因素,无法部署在一些资源受限的移动设备或者嵌入式设备中。因此人们提出了多种对模型体积进行压缩,或者加速模型计算的方法。

在这些方法中,知识蒸馏利用一个体积小的模型(在知识蒸馏中称为学生神经网络,Student)从一个体积较大的模型中学习知识(在知识蒸馏中称为教师神经网络, Teacher),进行模型压缩,得到了学术界的关注。

这篇文章从以下几方面提供给读者一个对知识蒸馏清晰的认识:

  • 知识蒸馏中的知识都有哪些?

  • 知识蒸馏的训练过程是什么样的?

  • 知识蒸馏中教师神经网络,学生神经网络的组成结构是什么样的?

  • 知识蒸馏都有哪些方法?

  • 知识蒸馏的应用

最后简要地论述了未来知识蒸馏的研究方向。

 

论文标题:

Knowledge Distillation: A Survey

论文链接:

https://arxiv.org/abs/2006.05525

内容中包含的图片若涉及版权问题,请及时与我们联系删除