Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges

Badri Narayana Patro,
Vijay Srinivas Agneeswaran
39
热度
ML
AI
CV
MM
ImgVideo
2024年04月24日
  • 简介
    序列建模是各个领域中至关重要的一个领域,包括自然语言处理(NLP)、语音识别、时间序列预测、音乐生成和生物信息学等。循环神经网络(RNN)和长短期记忆网络(LSTM)在机器翻译、命名实体识别(NER)等序列建模任务中一直处于主导地位。然而,transformers的出现导致了这种范式的转变,因为它们具有更好的性能。然而,transformers存在$O(N^2)$的注意力复杂度和处理归纳偏差的挑战。已经提出了几种变体来解决这些问题,它们使用谱网络或卷积,在各种任务上表现良好。然而,它们仍然难以处理长序列。状态空间模型(SSM)已经成为这种情况下序列建模范式的有希望的替代方法,特别是随着S4及其变体(如S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba等)的出现。在本调查中,我们根据三种范例,即门控架构、结构架构和循环架构,对基础SSM进行分类。本调查还强调了SSM在各个领域的多样化应用,包括视觉、视频、音频、语音、语言(特别是长序列建模)、医学(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析,包括表格数据。此外,我们还总结了SSM在基准数据集(如Long Range Arena(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2以及视频数据集,如Breakfast、COIN、LVU和各种时间序列数据集)上的性能。Mamba-360工作的项目页面可在此网页上找到:\url{https://github.com/badripatro/mamba360}。
  • 图表
  • 解决问题
    该论文探讨序列建模的问题,特别是长序列建模的问题,介绍了一种新的序列建模范式——状态空间模型,并探讨了其在各个领域的应用。
  • 关键思路
    该论文介绍了状态空间模型在序列建模中的应用,通过门控结构、结构化结构和递归结构三种范式,解决了长序列建模的问题。
  • 其它亮点
    该论文介绍了状态空间模型在序列建模中的应用,包括视觉、音频、语音、语言、医学、化学等多个领域,使用了多个数据集进行实验,如Long Range Arena、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2、Breakfast、COIN、LVU等,同时开源了代码。值得进一步研究。
  • 相关研究
    在序列建模领域,RNN、LSTM、Transformer等模型一直占据主导地位,但是这些模型在处理长序列时存在一定的问题,因此出现了一些改进模型,如S4、S4nd、Hippo、Hyena、DSS、GSS、LRU、Liquid-S4、Mamba等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论