Spectral Convolutional Transformer: Harmonizing Real vs. Complex Multi-View Spectral Operators for Vision Transformer

2024年03月26日
  • 简介
    在视觉领域中,Transformer已经通过多种架构进行了研究,包括ViT、PVT和Swin。这些架构都致力于改进注意机制并使其更加高效。与此不同的是,人们感觉需要包含局部信息,因此将卷积引入到Transformer中,例如CPVT和CvT。使用复杂的傅里叶基础来捕获全局信息,通过各种方法(如AFNO、GFNet和Spectformer)实现全局令牌混合。我们主张将数据的三个不同视角(局部、全局和长程依赖)结合起来。我们还研究了仅使用实域谱表示的最简单的全局表示-通过Hartley变换获得。我们在初始层中使用卷积算子来捕获局部信息。通过这两个贡献,我们能够优化并获得一种谱卷积Transformer(SCT),它在减少参数数量的同时提供了比现有技术更好的性能。通过广泛的实验,我们展示了SCT-C-small在ImageNet数据集上具有最先进的性能,达到了84.5%的top-1准确率,而SCT-C-Large达到了85.9%,SCT-C-Huge达到了86.4%。我们对SCT进行了迁移学习的评估,包括CIFAR-10、CIFAR-100、Oxford Flower和Stanford Car等数据集。我们还在MSCOCO数据集上评估了SCT在实例分割等下游任务上的性能。该项目页面可在此网页上获得:\url{https://github.com/badripatro/sct}。
  • 图表
  • 解决问题
    论文旨在解决视觉中的Transformer模型中存在的局部信息和全局信息的不平衡问题,提出一种新的Spectral Convolution Transformer (SCT)模型。
  • 关键思路
    SCT模型结合了局部信息、全局信息和长程依赖,使用Hartley变换获取实域谱表示,同时在初始层中使用卷积操作来捕获局部信息。在ImageNet数据集上达到了最先进的性能。
  • 其它亮点
    论文使用SCT模型在ImageNet数据集上达到了最先进的性能,同时在CIFAR-10、CIFAR-100、Oxford Flower和Stanford Car等数据集上进行了转移学习和实例分割的评估。论文还开源了代码。
  • 相关研究
    与SCT模型相关的研究包括ViT、PVT、Swin、CPVT、CvT、AFNO、GFNet和Spectformer等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论