MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

2025年06月16日
  • 简介
    我们推出了 MiniMax-M1,这是世界上首个开放权重、大规模的混合注意力推理模型。MiniMax-M1 采用了混合专家架构(MoE)与闪电注意力机制相结合的设计。该模型基于我们之前的 MiniMax-Text-01 模型开发,后者总共包含 4560 亿参数,每个 token 激活 45.9 亿参数。M1 模型原生支持 100 万 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。此外,MiniMax-M1 中的闪电注意力机制能够高效扩展测试时的计算需求。这些特性使得 M1 特别适合处理需要长输入和深度思考的复杂任务。 MiniMax-M1 使用大规模强化学习(RL)在多样化的任务上进行训练,包括基于沙盒的和真实世界软件工程环境中的问题。除了 M1 在 RL 训练中固有的效率优势外,我们还提出了一种新的 RL 算法——CISPO,以进一步提升 RL 效率。CISPO 对重要性采样权重进行裁剪,而非对 token 更新裁剪,从而超越了其他具有竞争力的 RL 变体。通过结合混合注意力机制与 CISPO,MiniMax-M1 的完整 RL 训练可以在仅使用 512 张 H800 GPU 的情况下于三周内完成,租赁成本仅为 534,700 美元。 我们发布了两种版本的 MiniMax-M1 模型,分别具有 40K 和 80K 的“思考预算”,其中 40K 模型代表了 80K 模型训练过程中的中间阶段。在标准基准测试中的实验表明,我们的模型在性能上与强大的开放权重模型(如原始的 DeepSeek-R1 和 Qwen3-235B)相当或更优,尤其在复杂软件工程、工具利用和长上下文任务方面表现出色。我们已公开发布 MiniMax-M1,相关资源可访问 https://github.com/MiniMax-AI/MiniMax-M1 获取。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大规模语言模型在处理超长上下文和复杂任务时的效率与性能问题,尤其是在强化学习训练中的计算成本和收敛速度。这是一个重要但尚未完全解决的问题,特别是在开放权重模型领域。
  • 关键思路
    MiniMax-M1 引入了混合注意力机制(hybrid-attention)和 Mixture-of-Experts (MoE) 架构,结合闪电注意力机制以支持高达 1 百万 token 的上下文长度,并显著降低推理计算需求。此外,提出了 CISPO 算法优化强化学习效率,通过裁剪重要性采样权重而非 token 更新,进一步提升了训练速度和经济性。
  • 其它亮点
    1. MiniMax-M1 支持 1 百万 token 的上下文长度,远超现有模型;2. 使用 CISPO 算法,仅用 512 块 H800 GPU 在三周内完成训练,成本仅为 $534,700;3. 提供两种版本模型(40K 和 80K 思考预算),并开源代码;4. 实验表明,在复杂软件工程、工具使用和长上下文任务中表现优于 DeepSeek-R1 和 Qwen3-235B。
  • 相关研究
    近期相关研究包括:1. DeepSeek 的 R1 模型,同样关注长上下文任务但上下文长度较小;2. Qwen 系列模型,在多模态和大参数量方面表现出色;3. Google 的 Gemini 系列模型,探索了 MoE 架构的应用;4. Meta 的 Llama 系列模型,尤其是 Llama2,强调高效推理和多语言支持。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问