Mamba-3: Improved Sequence Modeling using State Space Principles

向作者提问

NEW

简介

推理阶段计算资源的扩展已成为提升大语言模型（LLM）性能的重要驱动力，因此，在模型设计中，推理效率已与模型质量同等重要，成为核心关注点。当前基于Transformer的模型虽能提供优异的模型质量，但其计算复杂度为二次方、内存占用为线性，导致推理成本高昂。这推动了亚二次方（sub-quadratic）模型的发展——此类模型将计算复杂度降至线性、内存占用压缩至常数级。然而，近期许多线性模型为追求算法效率，往往以牺牲模型质量与能力为代价，在状态追踪（state tracking）等任务上表现不佳；此外，其理论上具备的线性推理复杂度在实际硬件部署中仍缺乏效率。我们秉持“以推理为先”（inference-first）的设计理念，从线性模型的状态空间模型（SSM）视角出发，提出三项核心方法学改进：（1）基于SSM离散化推导出更具表达力的递归结构；（2）采用复数值状态更新规则，显著增强模型对动态状态的建模与追踪能力；（3）引入多输入–多输出（MIMO）架构范式，在不增加解码延迟的前提下全面提升模型性能。结合一系列架构层面的精细优化，我们提出的Mamba-3模型在信息检索、状态追踪及下游语言建模等多项任务中均取得显著性能提升。在15亿参数规模下，Mamba-3相较当前最优基线模型（Gated DeltaNet）将下游任务平均准确率提升了0.6个百分点；而进一步采用MIMO变体后，准确率额外再提升1.2个百分点，累计增益达1.8个百分点。在不同隐状态维度的对比实验中，Mamba-3仅需Mamba-2一半的状态尺寸，即可达到与其相当的困惑度（perplexity）。综合评估结果表明，Mamba-3成功推动了模型性能与推理效率之间的帕累托前沿（Pareto frontier）向前跃进。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

解决大语言模型推理阶段计算和内存开销过高的问题，特别是Transformer的二次时间复杂度与线性内存占用阻碍了高效部署；同时指出当前线性复杂度替代模型（如部分SSM类模型）在状态跟踪、长程依赖建模等关键能力上显著退化，并未真正实现硬件友好的线性推理——即理论复杂度与实际吞吐/延迟脱节。这不是全新问题，但论文首次系统性地以‘inference-first’为设计准则，将算法效率、硬件实测延迟、任务能力三者统一优化。
关键思路

基于状态空间模型（SSM）视角，提出三项正交且协同的改进：（1）从连续SSM离散化导出更具表达力的递归形式（超越标准HiPPO/S4简化假设），提升序列建模容量；（2）引入复数值状态更新机制，利用复数相位建模周期性与长期时序关系，显著增强状态跟踪能力；（3）首创多输入多输出（MIMO）SSM结构，在不增加单步解码延迟前提下扩展状态表征维度与信息流宽度。三者共同构成Mamba-3核心，兼顾O(N)理论复杂度、常数级KV内存与强任务性能。
其它亮点

在1.5B参数规模下，Mamba-3平均下游准确率超越Gated DeltaNet 0.6个百分点，MIMO变体再提升1.2点（总计+1.8）；相同困惑度下仅需Mamba-2一半状态尺寸，验证参数效率跃升；全面评测涵盖RETRIEVAL（HotpotQA、Natural Questions）、STATE TRACKING（MultiWOZ、SGD）、LM（PG19、BookWiki）三大类任务；所有实验均报告实测GPU端到端解码延迟（非FLOPs），体现‘inference-first’落地导向；代码与检查点已开源（GitHub: state-spaces/mamba）；值得深入的方向包括：复数SSM的可解释性分析、MIMO结构在多模态序列中的迁移、以及与轻量级KV缓存压缩技术的联合优化。
相关研究

Mamba: Linear-Time Sequence Modeling with Selective State Spaces (NeurIPS 2023); Gated Delta Networks: Learning Time-Varying Representations for Sequential Data (ICML 2024); S4: A General Framework for Structured State Space Models (ICLR 2022); Hyena: Towards a New Paradigm of Accelerated Large Language Models (ICML 2023); RWKV: Reinventing RNNs for the Transformer Era (arXiv 2023); FlashAttention-3: Fast and Memory-Efficient Exact Attention with IO-Awareness (NeurIPS 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问