- 简介人类同时看到低空间频率和高空间频率成分,并将两者的信息结合起来形成视觉场景。受到这种神经科学的启发,我们提出了一种改进的Vision Transformer架构,其中来自输入图像缩小版本的补丁被添加到第一个Transformer Encoder层的输入中。我们将这个模型命名为Retina Vision Transformer(RetinaViT),因为它受到人类视觉系统的启发。我们的实验表明,当在ImageNet-1K数据集上使用适度的配置进行训练时,RetinaViT相比原始的ViT实现了3.3%的性能提升。我们假设这种改进可以归因于输入中低空间频率成分的包含,这提高了捕捉结构特征的能力,并选择和向更深层转发重要特征。因此,RetinaViT为进一步研究垂直通路和注意力模式打开了大门。
- 图表
- 解决问题RetinaViT试图借鉴人类视觉系统的思想,解决在Transformer Encoder中缺乏低空间频率信息的问题,从而提高图像分类性能。这是否是一个新问题取决于如何定义问题的范围和界限。
- 关键思路RetinaViT将来自输入图像缩小版本的补丁添加到第一个Transformer Encoder层的输入中,以提供低空间频率信息,从而改善对结构特征的捕捉和对重要特征的选择和传递。
- 其它亮点RetinaViT在ImageNet-1K数据集上进行了实验,表明相对于原始ViT,RetinaViT在中等配置下提高了3.3%的性能。这表明RetinaViT的关键思路是有效的。此外,RetinaViT的实验结果表明,垂直通路和注意力模式是值得进一步研究的。
- 在这个领域中,最近的相关研究包括DeiT,T2T-ViT,PVT和CaiT等。
沙发等你来抢
去评论
评论
沙发等你来抢