- 简介目前的知识蒸馏方法主要集中在传递各种结构化知识和设计相应的优化目标,以鼓励学生网络模仿教师网络的输出。然而,引入过多的额外优化目标可能会导致训练不稳定,如梯度冲突。此外,这些方法忽略了教师和学生网络之间相对学习难度的指导方针。在本文中,受到人类认知科学的启发,我们从一个新的角度重新定义知识--学生和教师网络样本相对难度,并提出了一个用于语义分割的像素级知识蒸馏范式,称为相对难度蒸馏(RDD)。我们提出了一个两阶段的RDD框架:教师完全评估RDD(TFE-RDD)和教师-学生评估RDD(TSE-RDD)。RDD使教师网络能够在没有额外优化目标的情况下提供有效的学习重点指导,从而避免为多个损失调整学习权重。在流行的数据集(如Cityscapes、CamVid、Pascal VOC和ADE20k)上使用通用蒸馏损失函数进行广泛的实验评估,证明了RDD对抗最先进的知识蒸馏方法的有效性。此外,我们的研究展示了RDD可以与现有的知识蒸馏方法集成,以提高它们的上限性能。
- 图表
- 解决问题本论文旨在解决知识蒸馏(KD)中存在的问题,如梯度冲突和忽略教师和学生网络之间相对学习难度的指导。同时,论文还试图验证一种新的知识定义方式。
- 关键思路论文提出了一种新的像素级知识蒸馏范式,名为相对难度蒸馏(RDD)。RDD框架包括两个阶段:TFE-RDD和TSE-RDD。相较于现有的KD方法,RDD不需要额外的优化目标,而是通过教师网络提供有效的学习重点指导。
- 其它亮点论文使用了通用的蒸馏损失函数,在Cityscapes、CamVid、Pascal VOC和ADE20k等流行数据集上进行了广泛的实验评估。结果表明,RDD方法比当前最先进的KD方法更有效。此外,论文还展示了RDD可以与现有的KD方法集成,以提高它们的上限性能。
- 最近在这个领域中,还有一些相关的研究,如Hinton等人的原始知识蒸馏方法,以及Zagoruyko等人的FitNets方法。
沙发等你来抢
去评论
评论
沙发等你来抢