Heracles: A Hybrid SSM-Transformer Model for High-Resolution Image and Time-Series Analysis

2024年03月26日
  • 简介
    Transformers已经通过DeIT、Swin、SVT、Biformer、STVit和FDVIT等适应性改进在图像建模任务中实现了革命性的进展。然而,这些模型常常面临归纳偏差和高二次复杂度的挑战,使它们在高分辨率图像上的效率较低。状态空间模型(SSMs)如Mamba、V-Mamba、ViM和SiMBA提供了一种处理计算机视觉任务中高分辨率图像的替代方法。这些SSMs遇到了两个主要问题。首先,当它们被扩展到大型网络大小时,它们会变得不稳定。其次,尽管它们有效地捕捉了图像中的全局信息,但它们本质上难以处理局部信息。为了解决这些挑战,我们介绍了Heracles,一种新颖的SSM,它集成了本地SSM、全局SSM和基于注意力的令牌交互模块。Heracles利用基于Hartely核的状态空间模型来处理全局图像信息,利用本地卷积网络处理局部细节,并在更深层次上使用注意机制进行令牌交互。我们广泛的实验表明,Heracles-C-small在ImageNet数据集上实现了最先进的性能,其top-1准确率为84.5\%。Heracles-C-Large和Heracles-C-Huge进一步提高了准确性,分别为85.9\%和86.4\%。此外,Heracles在CIFAR-10、CIFAR-100、Oxford Flowers和Stanford Cars等数据集上的迁移学习任务以及在MSCOCO数据集上的实例分割中表现出色。Heracles还通过在七个时间序列数据集上实现最先进的结果来证明其多功能性,展示了其在具有光谱数据的不同领域中捕捉局部和全局信息的能力。该项目页面可在此链接中找到:\url{https://github.com/badripatro/heracles}。
  • 图表
  • 解决问题
    论文旨在解决高分辨率图像处理中的局部信息和全局信息之间的平衡问题,提出了一个新的状态空间模型Heracles。
  • 关键思路
    Heracles集成了局部状态空间模型、全局状态空间模型和基于注意力机制的令牌交互模块,通过Hartely核状态空间模型处理全局信息,通过局部卷积网络处理局部细节,通过注意力机制处理令牌交互,实现了局部信息和全局信息的平衡处理。
  • 其它亮点
    论文在ImageNet数据集上,Heracles-C-small取得了84.5%的top-1准确率,Heracles-C-Large和Heracles-C-Huge进一步提高了准确率。此外,Heracles在CIFAR-10、CIFAR-100、Oxford Flowers、Stanford Cars等数据集上也表现出色,在MSCOCO数据集上实现了实例分割。论文还在七个时间序列数据集上取得了最先进的结果,展示了其在处理具有谱数据的跨领域泛化方面的能力,同时捕捉了局部和全局信息。代码已经开源。
  • 相关研究
    相关研究包括利用Transformer的图像模型,如DeIT、Swin、SVT、Biformer、STVit和FDVIT,以及利用状态空间模型的Mamba、V-Mamba、ViM和SiMBA。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论