Structured Initialization for Attention in Vision Transformers

2024年04月01日
  • 简介
    本文探讨了在小规模数据集上训练视觉变换器(ViT)网络所面临的重大挑战。相比之下,卷积神经网络(CNN)具有架构归纳偏差,使其能够在这些问题上表现良好。本文认为,CNN内在的架构偏差可以重新解释为ViT内的初始化偏差。这一发现非常重要,因为它使ViT能够在小规模问题上同样表现出色,同时保持其在大规模应用中的灵活性。我们灵感来自于我们的实证观察,即随机脉冲滤波器可以在CNN内实现与学习滤波器相当的性能。我们的方法在许多基准测试中实现了数据有效的ViT学习的最新性能,包括CIFAR-10、CIFAR-100和SVHN。
  • 图表
  • 解决问题
    如何让Vision Transformer(ViT)网络在小规模数据集上表现良好?
  • 关键思路
    通过将卷积神经网络(CNN)的结构归纳偏差重新解释为ViT的初始化偏差,使ViT在小规模问题上表现出色,同时保持其在大规模应用中的灵活性。
  • 其它亮点
    论文提出了一种通过随机脉冲滤波器来实现CNN的结构化初始化偏差的方法,取得了在CIFAR-10、CIFAR-100和SVHN等数据集上的最新成果。论文还开源了代码。
  • 相关研究
    最近的相关研究包括:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》、《Going Deeper with Image Transformers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论