- 简介本文探讨了在小规模数据集上训练视觉变换器(ViT)网络所面临的重大挑战。相比之下,卷积神经网络(CNN)具有架构归纳偏差,使其能够在这些问题上表现良好。本文认为,CNN内在的架构偏差可以重新解释为ViT内的初始化偏差。这一发现非常重要,因为它使ViT能够在小规模问题上同样表现出色,同时保持其在大规模应用中的灵活性。我们灵感来自于我们的实证观察,即随机脉冲滤波器可以在CNN内实现与学习滤波器相当的性能。我们的方法在许多基准测试中实现了数据有效的ViT学习的最新性能,包括CIFAR-10、CIFAR-100和SVHN。
- 图表
- 解决问题如何让Vision Transformer(ViT)网络在小规模数据集上表现良好?
- 关键思路通过将卷积神经网络(CNN)的结构归纳偏差重新解释为ViT的初始化偏差,使ViT在小规模问题上表现出色,同时保持其在大规模应用中的灵活性。
- 其它亮点论文提出了一种通过随机脉冲滤波器来实现CNN的结构化初始化偏差的方法,取得了在CIFAR-10、CIFAR-100和SVHN等数据集上的最新成果。论文还开源了代码。
- 最近的相关研究包括:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》、《Going Deeper with Image Transformers》等。
沙发等你来抢
去评论
评论
沙发等你来抢