HDKD: Hybrid Data-Efficient Knowledge Distillation Network for Medical Image Classification

2024年07月10日
  • 简介
    Vision Transformers(ViTs)由于其强大的建模能力,在计算机视觉任务中取得了显著的进展。然而,由于缺乏内在的归纳偏差,当使用不足的数据进行训练时,它们的性能明显下降。从卷积神经网络(CNN)教师中提取知识和归纳偏差已成为增强ViTs在有限数据集上泛化能力的有效策略。以往的知识蒸馏(KD)方法主要有两条路径:一些方法仅关注将CNN教师的logit分布蒸馏到ViT学生中,忽略了由于它们之间的结构差异而存在的中间特征中的丰富语义信息。其他方法将特征蒸馏与logit蒸馏相结合,但这引入了对齐操作,由于不匹配的架构和增加的计算负载,限制了转移的知识量。因此,本文提出了一种混合数据高效知识蒸馏(HDKD)范式,它采用CNN教师和混合学生。选择混合学生有两个主要方面。首先,它利用了卷积和变换器的优点,同时与教师模型共享卷积结构。其次,这种共享结构使得可以直接应用特征蒸馏,而不会有任何信息损失或额外的计算负载。此外,我们提出了一种高效轻量级的卷积块,名为Mobile Channel-Spatial Attention(MBCSA),它是教师和学生模型中的主要卷积块。在两个医学公共数据集上进行的大量实验展示了HDKD优于其他最先进模型的优越性及其计算效率。源代码在:https://github.com/omarsherif200/HDKD
  • 图表
  • 解决问题
    如何在数据不足的情况下提高Vision Transformer模型的泛化能力?
  • 关键思路
    采用混合CNN-Transformer结构的学生模型,并直接应用特征蒸馏,避免了架构不匹配和计算开销的问题,从而提高了模型的泛化能力。
  • 其它亮点
    论文提出了一种新的混合数据有效知识蒸馏(HDKD)方法,实验结果表明该方法在两个医学数据集上表现优异,同时具有计算效率。此外,论文提出了一种轻量级卷积块MBCSA,并且开源了代码。
  • 相关研究
    目前已有的知识蒸馏方法主要存在两个问题:一是只蒸馏logit分布,忽略了中间特征的语义信息;二是同时进行特征蒸馏和logit蒸馏,但需要进行对齐操作,存在架构不匹配和计算开销等问题。近期相关研究包括:《Distilling Effective Supervision from Human Annotations for Visual Recognition》、《Knowledge Distillation via Instance Relationship Graph》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论