On the Surprising Effectiveness of Attention Transfer for Vision Transformers

2024年11月14日
  • 简介
    传统观点认为,预训练视觉变换器(ViT)通过学习有用的表示来提高下游任务的性能。这真的正确吗?我们研究了这个问题,并发现预训练过程中学到的特征和表示并不是必需的。令人惊讶的是,仅使用预训练中的注意力模式(即指导信息在标记之间如何流动)就足以使模型从头开始学习高质量的特征,并达到相当的下游性能。我们通过引入一种称为注意力转移的简单方法来证明这一点,该方法仅将预训练的教师ViT的注意力模式转移到学生模型中,无论是通过复制还是蒸馏注意力图。由于注意力转移让学生产生自己的特征,将其与微调后的教师模型进行集成还可以进一步提高ImageNet上的准确性。我们系统地研究了注意力图充分性的各个方面,包括它们在分布偏移设置下表现不如微调的情况。我们希望我们的探索能够更好地理解预训练所实现的目标,并为标准的微调实践提供一个有用的替代方案。
  • 图表
  • 解决问题
    该论文探讨了预训练视觉变换器(ViT)在下游任务中的作用,挑战了传统的观点,即预训练的主要目的是学习有用的特征表示。这是一个对现有假设的验证和挑战。
  • 关键思路
    论文的关键思路是,通过仅转移预训练模型的注意力模式,而不是整个特征表示,学生模型仍然可以从头开始学习高质量的特征,并在下游任务中达到与完全预训练模型相当的性能。这一发现表明,注意力模式本身可能携带了重要的信息流指导,而不仅仅是特征表示。
  • 其它亮点
    1. 提出了注意力转移(attention transfer)方法,通过复制或蒸馏预训练模型的注意力图来指导学生模型的学习。 2. 在ImageNet等基准数据集上进行了系统性的实验,验证了注意力转移的有效性。 3. 探讨了在不同分布偏移设置下,注意力转移的表现,发现在某些情况下仍优于传统微调方法。 4. 开源了代码,便于其他研究者复现和进一步研究。
  • 相关研究
    1. "Do Better Pre-trained Models Give Better Transfer Performance?" - 探讨了预训练模型在不同任务上的迁移性能。 2. "Understanding the Role of Attention in Vision Transformers" - 深入分析了注意力机制在ViT中的作用。 3. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" - 从文本任务角度探讨了预训练和迁移学习的关系。 4. "A Simple Framework for Contrastive Learning of Visual Representations" - 提出了对比学习框架,用于学习高质量的视觉表示。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论