SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series

2024年03月22日
  • 简介
    变压器已广泛采用注意力网络进行序列混合和MLP进行通道混合,在各个领域实现了突破。然而,最近的文献强调了注意力网络存在的问题,包括对输入序列长度的归纳偏差较低和二次复杂度。状态空间模型(SSM)如S4和其他模型(Hippo、全局卷积、液态S4、LRU、Mega和Mamba)已出现以解决上述问题,以帮助处理更长的序列长度。Mamba是最先进的SSM,但在扩展到计算机视觉数据集的大型网络时存在稳定性问题。我们提出了SiMBA,这是一种新的架构,引入了Einstein FFT(EinFFT)进行通道建模,通过特定的特征值计算,并使用Mamba块进行序列建模。在图像和时间序列基准测试中进行了广泛的性能研究,证明了SiMBA优于现有的SSM,缩小了与最先进的变压器之间的性能差距。值得注意的是,SiMBA在ImageNet和转移学习基准测试(如Stanford Car和Flower)以及任务学习基准测试和七个时间序列基准测试数据集上建立了自己作为最新的SSM。该项目页面可在此网站上找到:\url{https://github.com/badripatro/Simba}。
  • 图表
  • 解决问题
    提出一种新的神经网络结构SiMBA,旨在解决传统注意力网络的归纳偏差和输入序列长度的二次复杂度问题,同时解决Mamba在处理大型计算机视觉数据集时的稳定性问题。
  • 关键思路
    SiMBA结合了Einstein FFT和Mamba block,通过特定的特征值计算来建模通道,同时使用Mamba block来建模序列,从而实现对长序列的处理。SiMBA在图像和时间序列基准测试中表现出色,是新的最先进的SSM(State Space Models)。
  • 其它亮点
    SiMBA在ImageNet和Stanford Car、Flower等转移学习基准测试以及七个时间序列基准测试中表现出色,是最先进的SSM。论文提供了开源代码。
  • 相关研究
    最近的相关研究包括S4、Hippo、Global Convolutions、Liquid S4、LRU、Mega和Mamba等SSM模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论