微软｜SpectFormer：频谱层和多头自注意力层相结合，更好地捕捉图像特征

Badri N. Patro, Vinay P. Namboodiri, Vijay Srinivas Agneeswaran
[Microsoft]

SpectFormer：频率和注意力对视觉Transformer来说是最重要的

Vinay P.Namboodiri，安特卫普贝尔实验室的IIT Kanpur计算机科学与工程系工作

要点:

动机：旨在探究频谱层和多头自注意力层对Transformer架构的作用，以及如何将它们结合起来，提高图像识别的性能。
方法：提出一种新的Transformer架构SpectFormer，将频谱层和多头自注意力层结合起来，可以更好地捕捉图像特征表示，实现了比其他Transformer表现更好的性能。通过对比实验发现，SpectFormer在ImageNet上的Top-1准确率比GFNet-H和LiT分别提高了2％，SpectFormer-S在ImageNet-1K数据集上的Top-1准确率达到了84.25％(小型版本的最先进水平)，Spectformer-L实现了85.7％的Top-1准确率（与Transformers的基本版本相当的最先进水平）。
优势：SpectFormer将频谱层和多头自注意力层结合起来，可以更好地捕捉图像特征表示，实现了比其他Transformer表现更好的性能。实验结果表明，SpectFormer在多个数据集上表现出色，达到了最先进的水平。

提出一种名为SpectFormer的新的Transformer架构，将频谱层和多头自注意力层结合起来，可以更好地捕捉图像特征表示，实现了比其他Transformer表现更好的性能。

内容中包含的图片若涉及版权问题，请及时与我们联系删除