- 简介Transformer已经广泛采用注意力网络进行序列混合,采用MLP进行通道混合,在各个领域取得了突破性进展。然而,最近的文献强调了注意力网络存在的问题,包括对输入序列长度的归纳偏差较低和二次复杂度。状态空间模型(SSM)如S4和其他模型(Hippo、全局卷积、液态S4、LRU、Mega和Mamba)已经出现,以解决上述问题,帮助处理更长的序列长度。Mamba是最先进的SSM,但是当应用于计算机视觉数据集的大型网络时存在稳定性问题。我们提出了SiMBA,这是一种新的架构,引入了Einstein FFT(EinFFT)进行通道建模,通过特定的特征值计算,使用Mamba块进行序列建模。对图像和时间序列基准的广泛性能研究表明,SiMBA优于现有的SSM,在ImageNet和Stanford Car、Flower等转移学习基准以及七个时间序列基准上,填补了与最先进的Transformer之间的性能差距。值得注意的是,SiMBA在ImageNet和转移学习基准以及任务学习基准上均成为最先进的SSM。该项目页面可在此网站上找到:\url{https://github.com/badripatro/Simba}。
- 解决问题提出一种新的神经网络结构SiMBA,旨在解决传统attention networks的低归纳偏差和输入序列长度的二次复杂度问题,以及Mamba在大型计算机视觉数据集上的稳定性问题。
- 关键思路SiMBA结合了Einstein FFT和Mamba block,通过特定的特征值计算进行通道建模,并使用Mamba block进行序列建模,从而提高了神经网络的性能。
- 其它亮点实验表明,SiMBA在图像和时间序列基准测试中优于现有的SSMs,与最先进的transformers相比性能差距不大。SiMBA在ImageNet和Stanford Car、Flower等转移学习基准测试以及七个时间序列基准测试数据集中均表现出色。研究者已经在GitHub上公开了项目代码。
- 最近的相关研究包括S4、Hippo、Global Convolutions、Liquid S4、LRU、Mega和Mamba等。
沙发等你来抢
去评论
评论
沙发等你来抢