Aligning in a Compact Space: Contrastive Knowledge Distillation between Heterogeneous Architectures

2024年05月28日
  • 简介
    知识蒸馏通常用于压缩神经网络,降低推理成本和内存占用。在同质化架构的情况下,基于特征的方法已经被广泛验证为有效。然而,在教师和学生模型的架构异构的情况下,特征表示的固有差异显著降低了这些方法的性能。最近的研究表明,低频成分占据了图像特征的大部分。出于这个动机,我们提出了一种基于低频成分的对比知识蒸馏(LFCC)框架,显著提高了异构架构之间基于特征的蒸馏的性能。具体而言,我们设计了一组多尺度低通滤波器,从教师和学生模型的中间特征中提取低频成分,并将它们对齐到一个紧凑的空间中,以克服架构差异。此外,利用教师-学生框架的内在配对特性,我们设计了一种创新的样本级对比学习框架,巧妙地将样本内特征相似性和样本间特征差异性的约束重构为对比学习任务。这种策略使得学生模型能够利用样本内特征的一致性,同时增强了不同样本之间特征的区分度。因此,我们的LFCC框架准确地捕捉了异构架构之间特征表示的共性。在CNN、Transformer和MLP三种架构上进行的广泛评估和实证分析表明,LFCC在ImageNet-1K和CIFAR-100这些具有挑战性的基准测试中实现了优异的性能。所有代码将公开发布。
  • 图表
  • 解决问题
    解决异构架构下特征蒸馏效果下降的问题,提高异构架构下特征蒸馏的性能。
  • 关键思路
    设计了一种基于低频组件的对比知识蒸馏框架(LFCC),通过设计多尺度低通滤波器提取教师和学生模型的低频组件,将它们对齐到一个紧凑的空间,从而克服了异构架构中特征表示的差异。同时,利用教师-学生框架的内在配对特性,设计了一种创新的样本级对比学习框架,将样本内特征相似性和样本间特征差异性的约束转化为对比学习任务。
  • 其它亮点
    实验结果表明,LFCC在三种架构(CNN,Transformer和MLP)上的表现均优于其他方法,尤其是在ImageNet-1K和CIFAR-100这两个具有挑战性的基准数据集上。论文代码将公开。
  • 相关研究
    相关研究包括基于特征的知识蒸馏方法和对比学习方法。其中,FitNets和AT方法是两种经典的基于特征的知识蒸馏方法。对比学习方法包括SimCLR和MoCo等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论