- 简介最近,少样本知识蒸馏被提出作为一种利用有限数据和计算资源来利用大规模预训练模型知识的可行方法。本文提出了一种新颖的用于视觉Transformer的少样本特征蒸馏方法。我们的方法基于两个关键步骤。首先,利用视觉Transformer具有一致的深度结构这一特点,我们将现有预训练视觉Transformer(教师)间歇层的权重复制到更浅的结构(学生)中,其中间歇因子控制了学生Transformer相对于其教师的复杂度。接下来,我们采用了一种增强版本的低秩自适应(LoRA)方法,在少样本情况下将知识蒸馏到学生中,旨在恢复被跳过的教师层所进行的信息处理。我们在来自各个领域的五个数据集上进行了全面的实验,包括自监督Transformer和有监督Transformer作为教师,包括自然、医学和卫星图像等。实证结果证实了我们的方法优于竞争基线。此外,消融结果证明了所提出的流程的每个组件的有用性。
- 图表
- 解决问题本文旨在提出一种基于少量数据和计算资源利用大规模预训练模型知识的few-shot特征蒸馏方法,以解决视觉transformer领域的问题。
- 关键思路本文的关键思路是将已有的预训练视觉transformer(老师)的权重复制到更浅的架构(学生)中,并使用改进版的低秩适应(LoRA)将知识蒸馏到学生中,以实现少样本场景下的知识迁移。
- 其它亮点本文在多个数据集上进行了实验,包括自监督和有监督的transformer作为老师,在自然、医学和卫星图像等领域进行了测试。实验结果表明,本文方法优于竞争基线。此外,本文还进行了消融实验,证明了所提出方法的有效性。
- 最近的相关研究包括few-shot学习、知识蒸馏和视觉transformer等。其中,与本文最相关的研究包括:《Few-shot Learning with Global Class Representations》、《Knowledge Distillation: A Survey》和《An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale》等。
沙发等你来抢
去评论
评论
沙发等你来抢