MiniMax Sparse Attention

2026年06月11日
  • 简介
    超长上下文能力正日益成为前沿大语言模型(LLM)不可或缺的核心能力:智能体工作流、面向整个代码仓库规模的推理任务,以及持久化记忆等场景,均要求模型能够同时对数十万乃至上百万个词元(tokens)进行联合注意力计算;然而,标准Softmax注意力机制的二次方计算复杂度,使其在实际部署规模下难以承受。为此,我们提出“MiniMax稀疏注意力”(MSA),一种基于分组查询注意力(GQA)构建的分块稀疏注意力机制。该机制包含一个轻量级的索引分支(Index Branch),用于对键值(KV)块进行打分,并为每个GQA分组独立选取Top-k块,从而实现按组定制的稀疏检索,同时保持高效的分块级执行效率;主分支(Main Branch)则仅在被选中的块上执行精确的分块稀疏注意力计算。MSA的设计以“简洁性与可扩展性”为根本原则,结构高度精简,因而能便捷高效地部署于各类GPU硬件平台。为将理论上的稀疏性切实转化为实际加速效果,我们同步设计了配套的GPU执行路径:采用无需指数运算(exp-free)的Top-k选择算法,并结合键值外积稀疏注意力(KV-outer sparse attention),显著提升张量核心(tensor core)在分块粒度访存下的利用率。在具备原生多模态训练能力的1090亿参数模型上,MSA在100万词元上下文长度下,注意力计算量相较GQA降低28.4倍,而模型性能保持完全一致;配合我们协同设计的内核,MSA在H800 GPU上实现了14.2倍的预填充(prefill)速度提升和7.6倍的解码(decoding)端到端时延下降。本推理内核开源地址为:https://github.com/MiniMax-AI/MSA;基于MSA驱动、具备生产级能力且原生支持多模态的模型已正式开源发布,地址为:https://huggingface.co/MiniMaxAI/MiniMax-M3。
  • 作者讲解
  • 图表
  • 解决问题
    传统Transformer的softmax注意力机制具有O(n²)计算复杂度,难以支撑百万级token上下文的高效推理,制约了长上下文应用场景(如代码库级推理、智能体工作流、持久化记忆)的实际部署。
  • 关键思路
    提出MiniMax Sparse Attention(MSA):一种基于分组查询注意力(GQA)的块稀疏注意力机制;通过轻量级Index Branch对KV块进行无exp Top-k评分与分组独立筛选,Main Branch仅在选中的块上执行精确块稀疏注意力;设计原则强调简洁性、可扩展性与硬件友好性。
  • 其它亮点
    在109B参数原生多模态模型上验证:1M上下文下注意力计算量降低28.4倍;配合定制GPU内核(exp-free Top-k + KV-outer稀疏注意力),H800上实现14.2×预填充和7.6×解码端到端加速;开源推理内核(GitHub)及已商用的natively multimodal模型(Hugging Face);实验覆盖真实规模长上下文场景,非合成benchmark。
  • 相关研究
    FlashAttention-3 (2024), RingAttention (2023), Multi-Query Attention (Shazeer, 2019), Grouped Query Attention (Ainslie et al., 2023), Sparse Transformers (Child et al., 2019), LongNet (Dai et al., 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问