Mamba-3: Improved Sequence Modeling using State Space Principles

2026年03月16日
  • 简介
    推理阶段计算资源的扩展已成为提升大语言模型(LLM)性能的重要驱动力,因此,在模型设计中,推理效率已与模型质量同等重要,成为核心关注点。当前基于Transformer的模型虽能提供优异的模型质量,但其计算复杂度为二次方、内存占用为线性,导致推理成本高昂。这推动了亚二次方(sub-quadratic)模型的发展——此类模型将计算复杂度降至线性、内存占用压缩至常数级。然而,近期许多线性模型为追求算法效率,往往以牺牲模型质量与能力为代价,在状态追踪(state tracking)等任务上表现不佳;此外,其理论上具备的线性推理复杂度在实际硬件部署中仍缺乏效率。我们秉持“以推理为先”(inference-first)的设计理念,从线性模型的状态空间模型(SSM)视角出发,提出三项核心方法学改进:(1)基于SSM离散化推导出更具表达力的递归结构;(2)采用复数值状态更新规则,显著增强模型对动态状态的建模与追踪能力;(3)引入多输入–多输出(MIMO)架构范式,在不增加解码延迟的前提下全面提升模型性能。结合一系列架构层面的精细优化,我们提出的Mamba-3模型在信息检索、状态追踪及下游语言建模等多项任务中均取得显著性能提升。在15亿参数规模下,Mamba-3相较当前最优基线模型(Gated DeltaNet)将下游任务平均准确率提升了0.6个百分点;而进一步采用MIMO变体后,准确率额外再提升1.2个百分点,累计增益达1.8个百分点。在不同隐状态维度的对比实验中,Mamba-3仅需Mamba-2一半的状态尺寸,即可达到与其相当的困惑度(perplexity)。综合评估结果表明,Mamba-3成功推动了模型性能与推理效率之间的帕累托前沿(Pareto frontier)向前跃进。
  • 作者讲解·1
  • 图表
  • 解决问题
    解决大语言模型推理阶段计算和内存开销过高的问题,特别是Transformer的二次时间复杂度与线性内存占用阻碍了高效部署;同时指出当前线性复杂度替代模型(如部分SSM类模型)在状态跟踪、长程依赖建模等关键能力上显著退化,并未真正实现硬件友好的线性推理——即理论复杂度与实际吞吐/延迟脱节。这不是全新问题,但论文首次系统性地以‘inference-first’为设计准则,将算法效率、硬件实测延迟、任务能力三者统一优化。
  • 关键思路
    基于状态空间模型(SSM)视角,提出三项正交且协同的改进:(1)从连续SSM离散化导出更具表达力的递归形式(超越标准HiPPO/S4简化假设),提升序列建模容量;(2)引入复数值状态更新机制,利用复数相位建模周期性与长期时序关系,显著增强状态跟踪能力;(3)首创多输入多输出(MIMO)SSM结构,在不增加单步解码延迟前提下扩展状态表征维度与信息流宽度。三者共同构成Mamba-3核心,兼顾O(N)理论复杂度、常数级KV内存与强任务性能。
  • 其它亮点
    在1.5B参数规模下,Mamba-3平均下游准确率超越Gated DeltaNet 0.6个百分点,MIMO变体再提升1.2点(总计+1.8);相同困惑度下仅需Mamba-2一半状态尺寸,验证参数效率跃升;全面评测涵盖RETRIEVAL(HotpotQA、Natural Questions)、STATE TRACKING(MultiWOZ、SGD)、LM(PG19、BookWiki)三大类任务;所有实验均报告实测GPU端到端解码延迟(非FLOPs),体现‘inference-first’落地导向;代码与检查点已开源(GitHub: state-spaces/mamba);值得深入的方向包括:复数SSM的可解释性分析、MIMO结构在多模态序列中的迁移、以及与轻量级KV缓存压缩技术的联合优化。
  • 相关研究
    Mamba: Linear-Time Sequence Modeling with Selective State Spaces (NeurIPS 2023); Gated Delta Networks: Learning Time-Varying Representations for Sequential Data (ICML 2024); S4: A General Framework for Structured State Space Models (ICLR 2022); Hyena: Towards a New Paradigm of Accelerated Large Language Models (ICML 2023); RWKV: Reinventing RNNs for the Transformer Era (arXiv 2023); FlashAttention-3: Fast and Memory-Efficient Exact Attention with IO-Awareness (NeurIPS 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问