Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

2024年05月31日
  • 简介
    虽然Transformers一直是深度学习在语言建模方面成功的主要架构,但是像Mamba这样的状态空间模型(SSMs)最近已经被证明在小到中等规模上可以与Transformers匹敌甚至超越它。我们展示了这些模型族群实际上是非常密切相关的,并且发展了一个理论联系的丰富框架,将SSMs和注意力的各种变体通过对一个广为研究的结构半可分离矩阵的各种分解相连接。我们的状态空间对偶(SSD)框架使我们能够设计一个新的架构(Mamba-2),其核心层是Mamba选择性SSM的改进,速度提高了2-8倍,同时在语言建模方面仍然与Transformers竞争力十足。
  • 图表
  • 解决问题
    本论文旨在探讨状态空间模型(SSM)与注意力机制的关系,并提出了一种新的架构Mamba-2,旨在进一步优化SSM的性能。
  • 关键思路
    通过对结构化半分离矩阵的各种分解,将SSM与注意力机制联系起来,提出了状态空间对偶(SSD)框架,并在此基础上设计了Mamba-2架构,该架构的核心层是Mamba选择性SSM的改进版本,速度比原来快2-8倍,同时在语言建模方面与Transformer相当竞争力。
  • 其它亮点
    论文提出了状态空间对偶(SSD)框架,将SSM与注意力机制联系起来,设计了Mamba-2架构;实验结果表明,该架构在语言建模方面与Transformer相当竞争力;论文使用了多个数据集进行实验,包括PTB、WikiText-2、Enwik8等;论文提出的SSD框架和Mamba-2架构值得进一步研究和探索。
  • 相关研究
    与本论文相关的研究包括:《Attention is All You Need》、《Semi-Supervised Sequence Modeling with Cross-View Training》、《Structured Attention Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论