每天 0 点更新数据,热度根据全网互动数计算
最热 · 今天
最新
Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges
Badri Narayana Patro,
Vijay Srinivas Agneeswaran
2024年04月24日
序列建模是各个领域中至关重要的一个领域,包括自然语言处理(NLP)、语音识别、时间序列预测、音乐生成和生物信息学等。循环神经网络(RNN)和长短期记忆网络(LSTM)在机器翻译、命名实体识别(NER)等序列建模任务中一直处于主导地位。然而,transformers的出现导致了这种范式的转变,因为它们具有更好的性能。然而,transformers存在$O(N^2)$的注意力复杂度和处理归纳偏差的挑战。已经提出了几种变体来解决这些问题,它们使用谱网络或卷积,在各种任务上表现良好。然而,它们仍然难以处理长序列。状态空间模型(SSM)已经成为这种情况下序列建模范式的有希望的替代方法,特别是随着S4及其变体(如S4nd、Hippo、Hyena、Diagnol State Spaces(DSS)、Gated State Spaces(GSS)、Linear Recurrent Unit(LRU)、Liquid-S4、Mamba等)的出现。在本调查中,我们根据三种范例,即门控架构、结构架构和循环架构,对基础SSM进行分类。本调查还强调了SSM在各个领域的多样化应用,包括视觉、视频、音频、语音、语言(特别是长序列建模)、医学(包括基因组学)、化学(如药物设计)、推荐系统和时间序列分析,包括表格数据。此外,我们还总结了SSM在基准数据集(如Long Range Arena(LRA)、WikiText、Glue、Pile、ImageNet、Kinetics-400、sstv2以及视频数据集,如Breakfast、COIN、LVU和各种时间序列数据集)上的性能。Mamba-360工作的项目页面可在此网页上找到:\url{https://github.com/badripatro/mamba360}。
17
热度
ML
AI
CV
PDF
解读