State Space Model for New-Generation Network Alternative to Transformers: A Survey

Xiao Wang ,
Shiao Wang ,
Yuhe Ding ,
Yuehang Li ,
Wentao Wu ,
Yao Rong ,
Weizhe Kong ,
Ju Huang ,
Shihao Li ,
Haoxiang Yang ,
Ziwen Wang ,
Bo Jiang ,
Chenglong Li ,
Yaowei Wang ,
Yonghong Tian ,
Jin Tang
2024年04月15日
  • 简介
    在深度学习后期,Transformer架构已经展示了其在预训练大模型和各种下游任务中的强大性能。然而,这种架构的巨大计算需求阻碍了许多研究人员。为了进一步降低注意力模型的复杂度,已经做出了许多努力来设计更有效的方法。其中,状态空间模型(SSM)作为可能替代基于自注意力的Transformer模型的方法,在近年来越来越受到关注。在本文中,我们首次全面回顾了这些工作,并提供实验比较和分析,以更好地展示SSM的特点和优势。具体来说,我们首先详细描述了原理,以帮助读者快速掌握SSM的关键思想。之后,我们深入审查了现有SSM及其各种应用,包括自然语言处理、计算机视觉、图形、多模态和多媒体、点云/事件流、时间序列数据和其他领域。此外,我们对这些模型进行了统计比较和分析,希望读者能够了解不同结构在各种任务上的有效性。然后,我们提出了可能的研究方向,以更好地促进SSM的理论模型和应用的发展。更多相关工作将在以下GitHub上持续更新:https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List。
  • 图表
  • 解决问题
    本论文旨在解决Transformer架构计算需求巨大的问题,介绍了一种可能替代self-attention based Transformer模型的State Space Model(SSM)并探讨其在不同领域的应用。
  • 关键思路
    论文介绍了SSM的原理,并对现有的SSM及其在自然语言处理、计算机视觉、图形、多模态和多媒体、点云/事件流、时间序列数据等领域的应用进行了综述和实验比较。SSM通过设计更高效的方法,降低了注意力模型的复杂度。
  • 其它亮点
    论文对SSM的原理和应用进行了全面的介绍和实验比较,并提出了未来可能的研究方向。论文还提供了相关的开源代码和数据集。
  • 相关研究
    最近的相关研究包括但不限于:《Attention Is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Vision Transformer》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论