MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining

2025年05月12日
  • 简介
    我们推出了MiMo-7B,这是一款专为推理任务设计的大规模语言模型,在预训练和后训练阶段均进行了优化。在预训练阶段,我们改进了数据预处理流程,并采用三阶段的数据混合策略,以增强基础模型的推理能力。MiMo-7B-Base 在 25 万亿个 token 上进行预训练,同时引入多标记预测(Multi-Token Prediction)目标,从而提升性能并加速推理速度。在后训练阶段,我们精心构建了一个包含 13 万道可验证的数学和编程问题的数据集,用于强化学习,并结合测试难度驱动的代码奖励机制来缓解稀疏奖励问题,同时通过战略性数据重采样确保训练的稳定性。大量评估结果表明,MiMo-7B-Base 拥有卓越的推理潜力,其表现甚至优于规模更大的 32B 模型。最终经过强化学习调优的模型 MiMo-7B-RL,在数学、代码和通用推理任务上表现出色,超越了 OpenAI 的 o1-mini 模型。模型的权重已开源,可从以下链接获取:https://github.com/xiaomimimo/MiMo。
  • 图表
  • 解决问题
    该论文试图解决如何提升大型语言模型在数学、编程和通用推理任务上的性能问题。这并不是一个全新的问题,但论文专注于通过优化预训练和强化学习阶段来增强模型的推理能力,从而实现更高效的学习和更好的任务表现。
  • 关键思路
    论文的关键思路是通过三阶段数据混合策略和多标记预测目标优化预训练过程,并通过针对数学和编程问题的强化学习进一步微调模型。与现有方法相比,MiMo-7B引入了测试难度驱动的代码奖励方案以及战略性数据重采样技术,以缓解稀疏奖励问题并稳定训练过程。
  • 其它亮点
    论文设计了一个包含130K可验证数学和编程问题的数据集用于强化学习,并展示了MiMo-7B-RL在多个基准测试中超越更大规模模型(如32B参数模型)的表现。此外,最终模型在数学、代码和通用推理任务上超过了OpenAI的o1-mini模型。所有模型检查点均已开源至GitHub(https://github.com/xiaomimimo/MiMo),为后续研究提供了坚实基础。
  • 相关研究
    近期相关研究包括:1) AlphaCode(DeepMind),专注于代码生成和竞赛级编程任务;2) Minerva(Google),通过大规模微调提升数学推理能力;3) LLaMA系列(Meta),探索不同规模模型在多任务推理中的表现;4) StarCoder(Hugging Face),针对代码生成进行优化。这些研究共同推动了语言模型在特定领域推理任务上的进展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论