MiMo-V2-Flash Technical Report

2026年01月06日
  • 简介
    我们推出MiMo-V2-Flash,这是一款混合专家(Mixture-of-Experts, MoE)模型,总参数量达3090亿,激活参数为150亿,专为实现快速而强大的推理能力和智能体(agentic)功能而设计。MiMo-V2-Flash采用一种混合注意力架构,将滑动窗口注意力(Sliding Window Attention, SWA)与全局注意力交错结合,滑动窗口长度为128个token,混合比例为5:1。该模型在27万亿个token上进行了预训练,采用多token预测(Multi-Token Prediction, MTP)技术,原生支持32k上下文长度,并进一步扩展至256k。为了高效扩展训练后的计算资源,MiMo-V2-Flash引入了一种全新的“多教师在线策略蒸馏”(Multi-Teacher On-Policy Distillation, MOPD)范式。在此框架下,领域专用的教师模型(例如通过大规模强化学习训练得到的模型)提供密集且细粒度到token级别的奖励信号,使学生模型能够精准掌握教师模型的专业能力。尽管总参数量仅为DeepSeek-V3.2和Kimi-K2的二分之一和三分之一,MiMo-V2-Flash在性能上仍可与这些顶级开源模型相媲美。在推理阶段,通过将MTP机制重新用作推测性解码(speculative decoding)中的草稿模型,MiMo-V2-Flash在使用三个MTP层的情况下,实现了最高达3.6的平均接受长度和2.6倍的解码加速。我们已公开发布模型权重以及三层MTP权重,以推动开放研究并促进社区协作。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决大模型在推理速度、参数效率和长上下文建模之间的权衡问题,特别是在实现强推理与智能体(agentic)能力的同时保持高效的训练与推理性能。传统密集模型在扩展时面临计算成本高、推理延迟大的挑战,而当前的稀疏化或MoE方法往往难以兼顾性能与速度。该问题在当前大模型工业化部署背景下尤为重要,虽非全新问题,但在结合多教师蒸馏与MTP加速推理方面具有新颖性。
  • 关键思路
    MiMo-V2-Flash采用混合专家(MoE)架构,总参数309B但仅激活15B,在保证性能的同时显著提升效率;引入滑动窗口注意力(SWA)与全局注意力按5:1比例交替的混合注意力机制,支持原生32k并扩展至256k长上下文;提出Multi-Teacher On-Policy Distillation(MOPD),利用领域专用教师模型提供细粒度奖励信号,实现高效知识迁移;创新性地将预训练中的Multi-Token Prediction(MTP)头用于推理阶段作为草稿模型,实现 speculative decoding,大幅提升解码速度。
  • 其它亮点
    模型在27万亿token上完成预训练,具备强大基础能力;通过MTP实现高达3.6的接受长度和2.6倍解码加速,验证了训练组件复用的新范式;开源了主模型权重与三层MTP草稿模型权重,促进社区研究;实验涵盖多项主流基准,显示其性能媲美DeepSeek-V3.2和Kimi-K2,但参数量仅为后者的1/2和1/3;未来可深入探索MOPD中多教师协同机制、MTP轻量化设计及其在端侧部署的应用。
  • 相关研究
    1. DeepSeek-V3.2: Scaling Reinforcement Learning for Long-Horizon Reasoning 2. Kimi-K2: Inference Optimization via Mixture-of-Sperts and Dynamic Context Routing 3. Llama-3-8B-8192: Efficient Transformers with Sliding Window Attention 4. Speculative Decoding: Accelerating Generative Inference with Draft Models 5. GLM-4: Hybrid Attention Architectures for Extended Context Modeling 6. Qwen-Max: Multi-Token Prediction for Pretraining Efficiency
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问