CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective

2024年04月22日
  • 简介
    本文提出了一种简单而有效的对比知识蒸馏方法,可以用样本对齐问题来表述,其中包括了内部和外部样本的约束条件。与传统的知识蒸馏方法不同的是,我们的方法尝试通过对齐每个样本的教师和学生的logits来恢复“黑暗知识”,而不是仅关注于最大化特征相似性或保留教师和学生特征之间的类别语义相关性。具体而言,我们的方法首先通过考虑它们的数值来最小化相同样本内的logit差异,从而保留内部样本的相似性。接下来,我们利用不同样本之间的差异性来弥合语义差异。值得注意的是,内部样本相似性和外部样本差异性的约束条件可以有效地重构成新设计的正负对的对比学习框架。正对包括来自相同样本的教师和学生的logits,而负对则是使用来自不同样本的logits。通过这种形式,我们的方法可以通过优化InfoNCE获得对比学习的简单和高效,其运行时间复杂度远远低于$O(n^2)$,其中$n$表示训练样本的总数。此外,我们的方法可以消除对超参数调整的需求,特别是与温度参数和大批量大小相关的需求。我们在三个数据集(包括CIFAR-100、ImageNet-1K和MS COCO)上进行了全面的实验。实验结果清楚地证实了所提出方法在图像分类和目标检测任务上的有效性。我们的源代码将公开在https://github.com/wencheng-zhu/CKD上。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提出一种简单而有效的对比知识蒸馏方法,通过样本级别的内部和外部约束来解决样本间的语义差异问题,从而恢复“黑暗知识”。
  • 关键思路
    本文提出了一种新的对比学习框架,通过对内部相似性和外部不相似性的约束,利用新设计的正负样本来最小化样本内的logit差异,从而实现对教师和学生logits的样本级别对齐。
  • 其它亮点
    本文的方法在CIFAR-100、ImageNet-1K和MS COCO等三个数据集上进行了全面实验,证明了其在图像分类和目标检测任务上的有效性。该方法具有简单高效、无需超参数调整等优点,并提供了开源代码。
  • 相关研究
    在此领域中,最近的相关研究包括:《Distilling the Knowledge in a Neural Network》、《Like What You Like: Knowledge Distill via Neuron Selectivity Transfer》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问