Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data

2024年02月08日
  • 简介
    近年来,Transformer已成为文本序列建模和各种多维数据(如图像和视频)的事实标准架构。然而,Transformer中使用的自注意力层会导致计算和存储复杂度成二次比例地随着序列长度增加而变得极高。最近,一种基于状态空间模型的新型架构Mamba已被证明能够在建模文本序列时达到可比较的性能,同时随着序列长度线性扩展。在本文中,我们提出了Mamba-ND,一种将Mamba架构扩展到任意多维数据的通用设计。我们的设计沿着不同维度按行主序对输入数据进行交替展开。我们对Mamba-ND与其他几种基于先前多维扩展(如双向LSTM和S4ND)的替代方案进行了系统比较。实验结果表明,Mamba-ND在各种多维基准测试中展现出与最先进技术相竞争的性能,包括ImageNet-1K分类、HMDB-51动作识别和ERA5天气预报等。
  • 图表
  • 解决问题
    Mamba-ND论文试图将Mamba架构推广到任意多维数据,以解决使用自注意力层的Transformer在处理长序列时所面临的计算和内存复杂度问题。
  • 关键思路
    Mamba-ND的关键思路是使用状态空间模型,并按照行主序列在不同维度上展开输入数据。相比现有的多维扩展方法,Mamba-ND的思路具有线性可扩展性和可比性能。
  • 其它亮点
    论文在多个基准测试中验证了Mamba-ND的性能,包括ImageNet-1K分类、HMDB-51动作识别和ERA5天气预测。实验结果表明,Mamba-ND在这些任务上表现出与现有最先进方法相当的性能。
  • 相关研究
    近期的相关研究包括:S4ND、Bi-directional LSTMs等多维扩展方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论