SpectFormer: Frequency and Attention is what you need in a Vision Transformer
Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran
[Microsoft]
SpectFormer:频率和注意力对视觉Transformer来说是最重要的
Vinay P.Namboodiri,安特卫普贝尔实验室的IIT Kanpur计算机科学与工程系工作
要点:
-
动机:旨在探究频谱层和多头自注意力层对Transformer架构的作用,以及如何将它们结合起来,提高图像识别的性能。 -
方法:提出一种新的Transformer架构SpectFormer,将频谱层和多头自注意力层结合起来,可以更好地捕捉图像特征表示,实现了比其他Transformer表现更好的性能。通过对比实验发现,SpectFormer在ImageNet上的Top-1准确率比GFNet-H和LiT分别提高了2%,SpectFormer-S在ImageNet-1K数据集上的Top-1准确率达到了84.25%(小型版本的最先进水平),Spectformer-L实现了85.7%的Top-1准确率(与Transformers的基本版本相当的最先进水平)。 -
优势:SpectFormer将频谱层和多头自注意力层结合起来,可以更好地捕捉图像特征表示,实现了比其他Transformer表现更好的性能。实验结果表明,SpectFormer在多个数据集上表现出色,达到了最先进的水平。
提出一种名为SpectFormer的新的Transformer架构,将频谱层和多头自注意力层结合起来,可以更好地捕捉图像特征表示,实现了比其他Transformer表现更好的性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢