NEW

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

MiniMax ,

: ,

Aili Chen ,

Aonian Li ,

Bangwei Gong ,

Binyang Jiang ,

Bo Fei ,

Bo Yang ,

Boji Shan ,

Changqing Yu ,

Chao Wang ,

Cheng Zhu ,

Chengjun Xiao ,

Chengyu Du ,

Chi Zhang ,

Chu Qiao ,

Chunhao Zhang ,

Chunhui Du ,

Congchao Guo ,

Da Chen ,

Deming Ding ,

Dianjun Sun ,

Dong Li ,

Enwei Jiao ,

Haigang Zhou ,

Haimo Zhang ,

Han Ding ,

Haohai Sun ,

Haoyu Feng ,

Huaiguang Cai ,

Haichao Zhu ,

Jian Sun ,

Jiaqi Zhuang ,

Jiaren Cai ,

Jiayuan Song ,

Jin Zhu ,

Jingyang Li ,

Jinhao Tian ,

Jinli Liu ,

Junhao Xu ,

Junjie Yan ,

Junteng Liu ,

Junxian He ,

Kaiyi Feng ,

Ke Yang ,

Kecheng Xiao ,

Le Han ,

Leyang Wang ,

Lianfei Yu ,

Liheng Feng ,

Lin Li ,

Lin Zheng ,

Linge Du ,

Lingyu Yang ,

Lunbin Zeng ,

Minghui Yu ,

Mingliang Tao ,

Mingyuan Chi ,

Mozhi Zhang ,

Mujie Lin ,

Nan Hu ,

Nongyu Di ,

Peng Gao ,

Pengfei Li ,

Pengyu Zhao ,

Qibing Ren ,

Qidi Xu ,

Qile Li ,

Qin Wang ,

Rong Tian ,

Ruitao Leng ,

Shaoxiang Chen ,

Shaoyu Chen ,

Shengmin Shi ,

Shitong Weng ,

Shuchang Guan ,

Shuqi Yu ,

Sichen Li ,

Songquan Zhu ,

Tengfei Li ,

Tianchi Cai ,

Tianrun Liang ,

Weiyu Cheng ,

Weize Kong ,

Wenkai Li ,

Xiancai Chen ,

Xiangjun Song ,

Xiao Luo ,

Xiao Su ,

Xiaobo Li ,

Xiaodong Han ,

Xinzhu Hou ,

Xuan Lu ,

Xun Zou ,

Xuyang Shen ,

Yan Gong ,

Yan Ma ,

Yang Wang ,

Yiqi Shi ,

Yiran Zhong ,

Yonghong Duan ,

Yongxiang Fu ,

Yongyi Hu ,

Yu Gao ,

Yuanxiang Fan ,

Yufeng Yang ,

Yuhao Li ,

Yulin Hu ,

Yunan Huang ,

Yunji Li ,

Yunzhi Xu ,

Yuxin Mao ,

Yuxuan Shi ,

Yuze Wenren ,

Zehan Li ,

Zelin Li ,

Zhanxu Tian ,

Zhengmao Zhu ,

Zhenhua Fan ,

Zhenzhen Wu ,

Zhichao Xu ,

Zhihang Yu ,

Zhiheng Lyu ,

Zhuo Jiang ,

Zibo Gao ,

Zijia Wu ,

Zijian Song ,

Zijun Sun

热度 1317

2025年06月16日

简介

我们推出了 MiniMax-M1，这是世界上首个开放权重、大规模的混合注意力推理模型。MiniMax-M1 采用了混合专家架构（MoE）与闪电注意力机制相结合的设计。该模型基于我们之前的 MiniMax-Text-01 模型开发，后者总共包含 4560 亿参数，每个 token 激活 45.9 亿参数。M1 模型原生支持 100 万 token 的上下文长度，是 DeepSeek R1 上下文大小的 8 倍。此外，MiniMax-M1 中的闪电注意力机制能够高效扩展测试时的计算需求。这些特性使得 M1 特别适合处理需要长输入和深度思考的复杂任务。 MiniMax-M1 使用大规模强化学习（RL）在多样化的任务上进行训练，包括基于沙盒的和真实世界软件工程环境中的问题。除了 M1 在 RL 训练中固有的效率优势外，我们还提出了一种新的 RL 算法——CISPO，以进一步提升 RL 效率。CISPO 对重要性采样权重进行裁剪，而非对 token 更新裁剪，从而超越了其他具有竞争力的 RL 变体。通过结合混合注意力机制与 CISPO，MiniMax-M1 的完整 RL 训练可以在仅使用 512 张 H800 GPU 的情况下于三周内完成，租赁成本仅为 534,700 美元。我们发布了两种版本的 MiniMax-M1 模型，分别具有 40K 和 80K 的“思考预算”，其中 40K 模型代表了 80K 模型训练过程中的中间阶段。在标准基准测试中的实验表明，我们的模型在性能上与强大的开放权重模型（如原始的 DeepSeek-R1 和 Qwen3-235B）相当或更优，尤其在复杂软件工程、工具利用和长上下文任务方面表现出色。我们已公开发布 MiniMax-M1，相关资源可访问 https://github.com/MiniMax-AI/MiniMax-M1 获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大规模语言模型在处理超长上下文和复杂任务时的效率与性能问题，尤其是在强化学习训练中的计算成本和收敛速度。这是一个重要但尚未完全解决的问题，特别是在开放权重模型领域。
关键思路

MiniMax-M1 引入了混合注意力机制（hybrid-attention）和 Mixture-of-Experts (MoE) 架构，结合闪电注意力机制以支持高达 1 百万 token 的上下文长度，并显著降低推理计算需求。此外，提出了 CISPO 算法优化强化学习效率，通过裁剪重要性采样权重而非 token 更新，进一步提升了训练速度和经济性。
其它亮点

1. MiniMax-M1 支持 1 百万 token 的上下文长度，远超现有模型；2. 使用 CISPO 算法，仅用 512 块 H800 GPU 在三周内完成训练，成本仅为 $534,700；3. 提供两种版本模型（40K 和 80K 思考预算），并开源代码；4. 实验表明，在复杂软件工程、工具使用和长上下文任务中表现优于 DeepSeek-R1 和 Qwen3-235B。
相关研究

近期相关研究包括：1. DeepSeek 的 R1 模型，同样关注长上下文任务但上下文长度较小；2. Qwen 系列模型，在多模态和大参数量方面表现出色；3. Google 的 Gemini 系列模型，探索了 MoE 架构的应用；4. Meta 的 Llama 系列模型，尤其是 Llama2，强调高效推理和多语言支持。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问