CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective

简介

本文提出了一种简单而有效的对比知识蒸馏方法，可以用样本对齐问题来表述，其中包括了内部和外部样本的约束条件。与传统的知识蒸馏方法不同的是，我们的方法尝试通过对齐每个样本的教师和学生的logits来恢复“黑暗知识”，而不是仅关注于最大化特征相似性或保留教师和学生特征之间的类别语义相关性。具体而言，我们的方法首先通过考虑它们的数值来最小化相同样本内的logit差异，从而保留内部样本的相似性。接下来，我们利用不同样本之间的差异性来弥合语义差异。值得注意的是，内部样本相似性和外部样本差异性的约束条件可以有效地重构成新设计的正负对的对比学习框架。正对包括来自相同样本的教师和学生的logits，而负对则是使用来自不同样本的logits。通过这种形式，我们的方法可以通过优化InfoNCE获得对比学习的简单和高效，其运行时间复杂度远远低于$O(n^2)$，其中$n$表示训练样本的总数。此外，我们的方法可以消除对超参数调整的需求，特别是与温度参数和大批量大小相关的需求。我们在三个数据集（包括CIFAR-100、ImageNet-1K和MS COCO）上进行了全面的实验。实验结果清楚地证实了所提出方法在图像分类和目标检测任务上的有效性。我们的源代码将公开在https://github.com/wencheng-zhu/CKD上。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在提出一种简单而有效的对比知识蒸馏方法，通过样本级别的内部和外部约束来解决样本间的语义差异问题，从而恢复“黑暗知识”。
关键思路

本文提出了一种新的对比学习框架，通过对内部相似性和外部不相似性的约束，利用新设计的正负样本来最小化样本内的logit差异，从而实现对教师和学生logits的样本级别对齐。
其它亮点

本文的方法在CIFAR-100、ImageNet-1K和MS COCO等三个数据集上进行了全面实验，证明了其在图像分类和目标检测任务上的有效性。该方法具有简单高效、无需超参数调整等优点，并提供了开源代码。
相关研究

在此领域中，最近的相关研究包括：《Distilling the Knowledge in a Neural Network》、《Like What You Like: Knowledge Distill via Neuron Selectivity Transfer》等。

CKD: Contrastive Knowledge Distillation from A Sample-wise Perspective

提问交流

提问交流