State Space Model for New-Generation Network Alternative to Transformers: A Survey

简介

在深度学习后期，Transformer架构已经展示了其在预训练大模型和各种下游任务中的强大性能。然而，这种架构的巨大计算需求阻碍了许多研究人员。为了进一步降低注意力模型的复杂度，已经做出了许多努力来设计更有效的方法。其中，状态空间模型（SSM）作为可能替代基于自注意力的Transformer模型的方法，在近年来越来越受到关注。在本文中，我们首次全面回顾了这些工作，并提供实验比较和分析，以更好地展示SSM的特点和优势。具体来说，我们首先详细描述了原理，以帮助读者快速掌握SSM的关键思想。之后，我们深入审查了现有SSM及其各种应用，包括自然语言处理、计算机视觉、图形、多模态和多媒体、点云/事件流、时间序列数据和其他领域。此外，我们对这些模型进行了统计比较和分析，希望读者能够了解不同结构在各种任务上的有效性。然后，我们提出了可能的研究方向，以更好地促进SSM的理论模型和应用的发展。更多相关工作将在以下GitHub上持续更新：https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List。
图表
解决问题

本论文旨在解决Transformer架构计算需求巨大的问题，介绍了一种可能替代self-attention based Transformer模型的State Space Model（SSM）并探讨其在不同领域的应用。
关键思路

论文介绍了SSM的原理，并对现有的SSM及其在自然语言处理、计算机视觉、图形、多模态和多媒体、点云/事件流、时间序列数据等领域的应用进行了综述和实验比较。SSM通过设计更高效的方法，降低了注意力模型的复杂度。
其它亮点

论文对SSM的原理和应用进行了全面的介绍和实验比较，并提出了未来可能的研究方向。论文还提供了相关的开源代码和数据集。
相关研究

最近的相关研究包括但不限于：《Attention Is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Vision Transformer》等。

State Space Model for New-Generation Network Alternative to Transformers: A Survey

评论