- 简介视觉Transformer已经在各种计算机视觉任务中获得了显著的关注并取得了最先进的性能,包括图像分类、实例分割和目标检测。然而,在应对注意力复杂度和有效捕捉图像内的细粒度信息方面仍然存在挑战。现有的解决方案通常采用下采样操作,如池化,以减少计算成本。不幸的是,这样的操作是不可逆的,并且可能导致信息丢失。在本文中,我们提出了一种名为散射视觉Transformer(SVT)的新方法来解决这些挑战。SVT结合了一种光谱散射网络,可以捕捉复杂的图像细节。SVT通过分离低频和高频成分来克服与下采样操作相关的不可逆性问题。此外,SVT引入了一种独特的光谱门控网络,利用爱因斯坦乘法进行令牌和通道混合,有效降低了复杂度。我们展示了SVT在ImageNet数据集上实现了最先进的性能,并大幅减少了参数和FLOPS的数量。SVT比LiTv2和iFormer提高了2%。SVT-H-S达到了84.2%的top-1准确率,而SVT-H-B达到了85.2%(基础版本的最新技术)和SVT-H-L达到了85.7%(大版本的最新技术)。SVT在其他视觉任务中也显示出可比较的结果,如实例分割。在标准数据集(如CIFAR10、CIFAR100、Oxford Flower和Stanford Car数据集)的迁移学习中,SVT也优于其他Transformer。该项目页面可以在此网页上找到:\url{https://badripatro.github.io/svt/}。
- 图表
- 解决问题论文旨在解决注意力复杂度和有效捕捉图像中细节信息的问题。同时,论文还试图解决下采样操作导致信息丢失的问题。这些问题在计算机视觉领域中很常见。这是否是一个新问题?
- 关键思路论文提出了一种新的方法,即Scattering Vision Transformer (SVT),来解决上述问题。SVT包括一个频谱散射网络,可以捕捉图像的复杂细节信息。此外,SVT通过分离低频和高频成分来解决下采样操作的可逆性问题,并引入了一种独特的频谱门控网络,利用Einstein乘法进行令牌和通道混合,从而有效降低了复杂度。
- 其它亮点论文在ImageNet数据集上展示了SVT的卓越性能,同时大幅减少了参数和FLOPS的数量。SVT在ImageNet上的表现优于LiTv2和iFormer,并且在其他视觉任务(如实例分割)中也表现出色。此外,SVT在标准数据集上的迁移学习中也表现出色,如CIFAR10,CIFAR100,Oxford Flower和Stanford Car数据集。论文的项目页面提供了开源代码。
- 最近在这个领域中,还有一些相关的研究。例如,Li等人提出了LiT,iBridges等人提出了iFormer。
沙发等你来抢
去评论
评论
沙发等你来抢