State Space Model for New-Generation Network Alternative to Transformers: A Survey

Xiao Wang,
Shiao Wang,
Yuhe Ding,
Yuehang Li,
Wentao Wu,
Yao Rong,
Weizhe Kong,
Ju Huang,
Shihao Li,
Haoxiang Yang,
Ziwen Wang,
Bo Jiang,
Chenglong Li,
Yaowei Wang,
Yonghong Tian,
Jin Tang
ML
AI
NLP
CV
MM
2024年04月15日
  • 简介
    在深度学习后期,Transformer架构已经展示了其在预训练大模型和各种下游任务中的强大性能。然而,这种架构的巨大计算需求阻碍了许多研究人员。为了进一步降低注意力模型的复杂度,已经做出了许多努力来设计更有效的方法。其中,状态空间模型(SSM)作为可能替代基于自注意力的Transformer模型的方法,在近年来越来越受到关注。在本文中,我们首次全面回顾了这些工作,并提供实验比较和分析,以更好地展示SSM的特点和优势。具体来说,我们首先详细描述了原理,以帮助读者快速掌握SSM的关键思想。之后,我们深入审查了现有SSM及其各种应用,包括自然语言处理、计算机视觉、图形、多模态和多媒体、点云/事件流、时间序列数据和其他领域。此外,我们对这些模型进行了统计比较和分析,希望读者能够了解不同结构在各种任务上的有效性。然后,我们提出了可能的研究方向,以更好地促进SSM的理论模型和应用的发展。更多相关工作将在以下GitHub上持续更新:https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List。
  • 图表
  • 解决问题
    本论文旨在解决Transformer架构计算需求巨大的问题,介绍了一种可能替代self-attention based Transformer模型的State Space Model(SSM)并探讨其在不同领域的应用。
  • 关键思路
    论文介绍了SSM的原理,并对现有的SSM及其在自然语言处理、计算机视觉、图形、多模态和多媒体、点云/事件流、时间序列数据等领域的应用进行了综述和实验比较。SSM通过设计更高效的方法,降低了注意力模型的复杂度。
  • 其它亮点
    论文对SSM的原理和应用进行了全面的介绍和实验比较,并提出了未来可能的研究方向。论文还提供了相关的开源代码和数据集。
  • 相关研究
    最近的相关研究包括但不限于:《Attention Is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Vision Transformer》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论