- 简介超长上下文能力正日益成为前沿大语言模型(LLM)不可或缺的核心能力:智能体工作流、面向整个代码仓库规模的推理任务,以及持久化记忆等场景,均要求模型能够同时对数十万乃至上百万个词元(tokens)进行联合注意力计算;然而,标准Softmax注意力机制的二次方计算复杂度,使其在实际部署规模下难以承受。为此,我们提出“MiniMax稀疏注意力”(MSA),一种基于分组查询注意力(GQA)构建的分块稀疏注意力机制。该机制包含一个轻量级的索引分支(Index Branch),用于对键值(KV)块进行打分,并为每个GQA分组独立选取Top-k块,从而实现按组定制的稀疏检索,同时保持高效的分块级执行效率;主分支(Main Branch)则仅在被选中的块上执行精确的分块稀疏注意力计算。MSA的设计以“简洁性与可扩展性”为根本原则,结构高度精简,因而能便捷高效地部署于各类GPU硬件平台。为将理论上的稀疏性切实转化为实际加速效果,我们同步设计了配套的GPU执行路径:采用无需指数运算(exp-free)的Top-k选择算法,并结合键值外积稀疏注意力(KV-outer sparse attention),显著提升张量核心(tensor core)在分块粒度访存下的利用率。在具备原生多模态训练能力的1090亿参数模型上,MSA在100万词元上下文长度下,注意力计算量相较GQA降低28.4倍,而模型性能保持完全一致;配合我们协同设计的内核,MSA在H800 GPU上实现了14.2倍的预填充(prefill)速度提升和7.6倍的解码(decoding)端到端时延下降。本推理内核开源地址为:https://github.com/MiniMax-AI/MSA;基于MSA驱动、具备生产级能力且原生支持多模态的模型已正式开源发布,地址为:https://huggingface.co/MiniMaxAI/MiniMax-M3。
-
- 图表
- 解决问题传统Transformer的softmax注意力机制具有O(n²)计算复杂度,难以支撑百万级token上下文的高效推理,制约了长上下文应用场景(如代码库级推理、智能体工作流、持久化记忆)的实际部署。
- 关键思路提出MiniMax Sparse Attention(MSA):一种基于分组查询注意力(GQA)的块稀疏注意力机制;通过轻量级Index Branch对KV块进行无exp Top-k评分与分组独立筛选,Main Branch仅在选中的块上执行精确块稀疏注意力;设计原则强调简洁性、可扩展性与硬件友好性。
- 其它亮点在109B参数原生多模态模型上验证:1M上下文下注意力计算量降低28.4倍;配合定制GPU内核(exp-free Top-k + KV-outer稀疏注意力),H800上实现14.2×预填充和7.6×解码端到端加速;开源推理内核(GitHub)及已商用的natively multimodal模型(Hugging Face);实验覆盖真实规模长上下文场景,非合成benchmark。
- FlashAttention-3 (2024), RingAttention (2023), Multi-Query Attention (Shazeer, 2019), Grouped Query Attention (Ainslie et al., 2023), Sparse Transformers (Child et al., 2019), LongNet (Dai et al., 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流