NEW

MiMo-V2-Flash Technical Report

Xiaomi LLM-Core Team ,

: ,

Bangjun Xiao ,

Bingquan Xia ,

Bo Yang ,

Bofei Gao ,

Bowen Shen ,

Chen Zhang ,

Chenhong He ,

Chiheng Lou ,

Fuli Luo ,

Gang Wang ,

Gang Xie ,

Hailin Zhang ,

Hanglong Lv ,

Hanyu Li ,

Heyu Chen ,

Hongshen Xu ,

Houbin Zhang ,

Huaqiu Liu ,

Jiangshan Duo ,

Jianyu Wei ,

Jiebao Xiao ,

Jinhao Dong ,

Jun Shi ,

Junhao Hu ,

Kainan Bao ,

Kang Zhou ,

Lei Li ,

Liang Zhao ,

Linghao Zhang ,

Peidian Li ,

Qianli Chen ,

Shaohui Liu ,

Shihua Yu ,

Shijie Cao ,

Shimao Chen ,

Shouqiu Yu ,

Shuo Liu ,

Tianling Zhou ,

Weijiang Su ,

Weikun Wang ,

Wenhan Ma ,

Xiangwei Deng ,

Bohan Mao ,

Bowen Ye ,

Can Cai ,

Chenghua Wang ,

Chengxuan Zhu ,

Chong Ma ,

Chun Chen ,

Chunan Li ,

Dawei Zhu ,

Deshan Xiao ,

Dong Zhang ,

Duo Zhang ,

Fangyue Liu ,

Feiyu Yang ,

Fengyuan Shi ,

Guoan Wang ,

Hao Tian ,

Hao Wu ,

Heng Qu ,

Hongfei Yi ,

Hongxu An ,

Hongyi Guan ,

Xing Zhang ,

Yifan Song ,

Yihan Yan ,

Yihao Zhao ,

Yingchun Lai ,

Yizhao Gao ,

Yu Cheng ,

Yuanyuan Tian ,

Yudong Wang ,

Zhen Tang ,

Zhengju Tang ,

Zhengtao Wen ,

Zhichao Song ,

Zhixian Zheng ,

Zihan Jiang ,

Jian Wen ,

Jiarui Sun ,

Jiawei Li ,

Jinlong Xue ,

Jun Xia ,

Kai Fang ,

Menghang Zhu ,

Nuo Chen ,

Qian Tu ,

Qihao Zhang ,

Qiying Wang ,

Rang Li ,

Rui Ma ,

Shaolei Zhang ,

Shengfan Wang ,

Shicheng Li ,

Shuhao Gu ,

Shuhuai Ren ,

Sirui Deng ,

Tao Guo ,

Tianyang Lu ,

Weiji Zhuang ,

Weikang Zhang ,

Weimin Xiong ,

Wenshan Huang ,

Wenyu Yang ,

Xin Zhang ,

Xing Yong ,

Xu Wang ,

Xueyang Xie ,

Yilin Jiang ,

Yixin Yang ,

Yongzhe He ,

Yu Tu ,

Yuanliang Dong ,

Yuchen Liu ,

Yue Ma ,

Yue Yu ,

Yuxing Xiang ,

Zhaojun Huang ,

Zhenru Lin ,

Zhipeng Xu ,

Zhiyang Chen ,

Zhonghua Deng ,

Zihan Zhang ,

Zihao Yue

热度 15

2026年01月06日

简介

我们推出MiMo-V2-Flash，这是一款混合专家（Mixture-of-Experts, MoE）模型，总参数量达3090亿，激活参数为150亿，专为实现快速而强大的推理能力和智能体（agentic）功能而设计。MiMo-V2-Flash采用一种混合注意力架构，将滑动窗口注意力（Sliding Window Attention, SWA）与全局注意力交错结合，滑动窗口长度为128个token，混合比例为5:1。该模型在27万亿个token上进行了预训练，采用多token预测（Multi-Token Prediction, MTP）技术，原生支持32k上下文长度，并进一步扩展至256k。为了高效扩展训练后的计算资源，MiMo-V2-Flash引入了一种全新的“多教师在线策略蒸馏”（Multi-Teacher On-Policy Distillation, MOPD）范式。在此框架下，领域专用的教师模型（例如通过大规模强化学习训练得到的模型）提供密集且细粒度到token级别的奖励信号，使学生模型能够精准掌握教师模型的专业能力。尽管总参数量仅为DeepSeek-V3.2和Kimi-K2的二分之一和三分之一，MiMo-V2-Flash在性能上仍可与这些顶级开源模型相媲美。在推理阶段，通过将MTP机制重新用作推测性解码（speculative decoding）中的草稿模型，MiMo-V2-Flash在使用三个MTP层的情况下，实现了最高达3.6的平均接受长度和2.6倍的解码加速。我们已公开发布模型权重以及三层MTP权重，以推动开放研究并促进社区协作。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决大模型在推理速度、参数效率和长上下文建模之间的权衡问题，特别是在实现强推理与智能体（agentic）能力的同时保持高效的训练与推理性能。传统密集模型在扩展时面临计算成本高、推理延迟大的挑战，而当前的稀疏化或MoE方法往往难以兼顾性能与速度。该问题在当前大模型工业化部署背景下尤为重要，虽非全新问题，但在结合多教师蒸馏与MTP加速推理方面具有新颖性。
关键思路

MiMo-V2-Flash采用混合专家（MoE）架构，总参数309B但仅激活15B，在保证性能的同时显著提升效率；引入滑动窗口注意力（SWA）与全局注意力按5:1比例交替的混合注意力机制，支持原生32k并扩展至256k长上下文；提出Multi-Teacher On-Policy Distillation（MOPD），利用领域专用教师模型提供细粒度奖励信号，实现高效知识迁移；创新性地将预训练中的Multi-Token Prediction（MTP）头用于推理阶段作为草稿模型，实现 speculative decoding，大幅提升解码速度。
其它亮点

模型在27万亿token上完成预训练，具备强大基础能力；通过MTP实现高达3.6的接受长度和2.6倍解码加速，验证了训练组件复用的新范式；开源了主模型权重与三层MTP草稿模型权重，促进社区研究；实验涵盖多项主流基准，显示其性能媲美DeepSeek-V3.2和Kimi-K2，但参数量仅为后者的1/2和1/3；未来可深入探索MOPD中多教师协同机制、MTP轻量化设计及其在端侧部署的应用。
相关研究

1. DeepSeek-V3.2: Scaling Reinforcement Learning for Long-Horizon Reasoning 2. Kimi-K2: Inference Optimization via Mixture-of-Sperts and Dynamic Context Routing 3. Llama-3-8B-8192: Efficient Transformers with Sliding Window Attention 4. Speculative Decoding: Accelerating Generative Inference with Draft Models 5. GLM-4: Hybrid Attention Architectures for Extended Context Modeling 6. Qwen-Max: Multi-Token Prediction for Pretraining Efficiency

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问