https://arxiv.org/abs/2208.08741
文章主要目标是以信息论为基础,解释知识蒸馏为什么能让学生模型比一个从头学起的新模型效果更好的原因。为了更好地阐述新的概念,作者首先提出了知识点 Knowledge Point
(下文有时将其简称为 KP):KP 指的是样本中的一组输入单元(input unit),相对于其它的输入单元,在 DNN 中它的信息损失明显地更少。在文中先给出了 KP 的公式化定义,随后,作者提出了三个假设,并对应地提出了三个评估指标来验证它们。
-
通过知识蒸馏学出来的模型,所包含的有效 KP 更多;
-
知识蒸馏的学习过程会让学生模型同时学习多个 KP,而从头开始训练的模型是序贯地学习 KP;
-
知识蒸馏学习开始时,学生模型相比于从头训练的模型优化更加稳定。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢