MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes

2025年09月29日
  • 简介
    大语言模型(LLM)的范式正从直觉式响应转向思维链(Chain-of-Thought, CoT)推理,这一转变催生了两个普遍假设:(1)推理能力仅在足够大的模型中才会涌现;(2)此类能力需要在海量数据集上进行训练。尽管第一个假设已被近期一些参数量低于十亿的推理模型(如 Qwen3-0.6B 和 DeepSeek 的蒸馏版本)所挑战,但第二个假设至今仍鲜有质疑。在本研究中,我们重新审视了为实现推理能力而必须将语料库扩展至超大规模(>10万亿token)的必要性。通过精心筛选并重采样我们认为在我们设计的评估指标下有益的开源数据集,我们证明强大的推理能力完全可以在少得多的数据条件下涌现。具体而言,我们发现仅需约2万亿token的高质量数据便已足够;在此基础上对这些数据进行重采样,构建4.2万亿token的数据集用于预训练,并结合成熟的后训练流程,成功开发出MobileLLM-R1系列——一组参数量低于十亿的推理模型,其性能显著超越此前所有基于完全开源数据训练的同类模型。例如,MobileLLM-R1-950M在AIME评测中取得了15.5分的成绩,远高于OLMo-2-1.48B的0.6分和SmolLM-2-1.7B的0.3分。尤为值得注意的是,尽管MobileLLM-R1-950M的预训练token数量仅为Qwen3专有语料库(36万亿token)的11.7%,它在多个推理基准测试中的表现仍达到甚至超过了Qwen3-0.6B。为推动该方向的进一步研究,我们已公开了完整的训练方案、数据来源、数据混合比例以及模型检查点,并分享了本研究过程中获得的关键洞见。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLM)推理能力是否必须依赖超大规模训练数据(如超过10T tokens)的问题。这一假设长期以来被广泛接受,但尚未充分验证。该问题在当前研究背景下具有新颖性,尤其是在小型模型已展现推理能力的趋势下,重新审视数据规模的必要性显得尤为关键。
  • 关键思路
    作者提出,通过精心筛选和重采样高质量的开源数据集(约2T tokens),仅用4.2T tokens的预训练数据即可激发小参数模型的强推理能力。其核心思路是‘数据质量优于数据规模’,挑战了‘必须使用海量数据才能获得推理能力’的传统假设。相比现有研究,本文首次系统论证了在远小于主流训练量(如Qwen3的36T)的情况下,仍可训练出具备竞争力的推理模型,为高效、低成本推理模型训练提供了新范式。
  • 其它亮点
    实验设计严谨,基于自定义指标筛选并重采样数据;最终模型MobileLLM-R1系列(如950M参数)在AIME等推理基准上大幅超越同规模开源模型(如OLMo、SmolLM),甚至媲美Qwen3-0.6B;尽管仅使用Qwen3 11.7%的token量,性能却相当或更优;完整公开训练配方、数据源、混合比例及模型检查点,极大促进可复现研究;未来可在数据质量评估指标、动态数据重采样策略等方面深入探索。
  • 相关研究
    近期相关研究包括:'Rethinking Training Data for Large Language Models: A Case Study on Reasoning' (2024); 'Are Billion Tokens Necessary? Rethinking Pretraining Scale for Small Language Models' (ICLR 2024); 'DeepSeek's Distilled Series: Efficient Models with Strong Reasoning' (2024); 'Qwen3 Technical Report: Scaling to Better Performance' (Alibaba, 2024); 'OLMo: Open Language Model Ecosystem' (AI2, 2024); 'SmolLM: Small Models with Surprising Capabilities' (Hugging Face, 2024)。这些工作共同推动对模型规模、数据效率与推理能力之间关系的再思考。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问