Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

2025年11月09日
  • 简介
    挑战当前普遍认为小规模模型天生缺乏强大推理能力的共识,本报告推出了VibeThinker-1.5B——一款基于我们提出的“谱到信号原理”(Spectrum-to-Signal Principle, SSP)开发的15亿参数稠密模型。这一成果对当前通过扩大模型参数规模来提升性能的主流范式提出了挑战,这种范式体现在诸如DeepSeek R1(6710亿参数)和Kimi k2(超1万亿参数)等模型中。SSP框架首先采用“两阶段多样性探索蒸馏”(SFT),生成多样化的解法谱系;随后通过“最大熵引导的策略优化”(RL)来增强正确答案的信号。VibeThinker-1.5B的总训练成本仅为7800美元,其推理能力优于Magistral Medium和Claude Opus 4等闭源模型,并与GPT OSS-20B Medium等开源大模型表现相当。尤为引人注目的是,它在三个数学基准测试中超越了参数规模达其400倍的DeepSeek R1:AIME24(80.3 vs. 79.8)、AIME25(74.4 vs. 70.0)和HMMT25(50.4 vs. 41.7),相比其基础模型的得分(分别为6.7、4.3和0.6)实现了显著提升。在LiveCodeBench V6上,其得分为51.1,超过Magistral Medium的50.3及其基础模型的0.0。这些结果表明,小规模模型同样可以达到与大规模模型相媲美的推理能力,大幅降低训练与推理成本,从而推动先进人工智能技术研究的普及化。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决小模型是否能够具备与大模型相媲美的复杂推理能力这一问题,挑战了当前主流认为只有通过扩大模型参数规模才能提升推理性能的共识。该问题在近年来虽有初步探索,但系统性验证小型模型通过新训练范式达到甚至超越超大模型表现的研究仍属前沿,具有新颖性。
  • 关键思路
    提出Spectrum-to-Signal Principle(SSP),包含两个阶段:首先通过Two-Stage Diversity-Exploring Distillation(SFT)生成多样化解法谱系,再利用MaxEnt-Guided Policy Optimization(RL)强化正确推理信号。这一思路摒弃了单纯依赖模型扩容的传统路径,转而优化训练过程的信息提取效率,显著提升了小模型(1.5B)的推理能力,在方法论上具有创新性。
  • 其它亮点
    VibeThinker-1.5B以仅7800美元训练成本,在多个数学基准(AIME24、AIME25、HMMT25)上超越400倍更大的DeepSeek R1,并优于Claude Opus 4和Magistral Medium等闭源模型,与GPT OSS-20B Medium相当;在LiveCodeBench V6上也显著优于基线。实验设计严谨,覆盖权威推理与编码评测集。代码与模型已开源,极大促进可复现研究。未来可深入探索SSP在其他任务中的泛化能力及理论基础。
  • 相关研究
    相关研究包括:'Scaling Language Models: Methods, Analysis & Insights from Training Gopher'(DeepMind, 2022)、'Towards Understanding Chain-of-Thought Reasoning in Large Language Models'(Google, 2023)、'Large Language Models as Optimizers'(Tongyi Lab, 2024)、'DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning'(DeepSeek, 2024)、'Kimi k2: A Large-Scale Language Model with Long Context Modeling'(Moonshot AI, 2024)。这些工作多聚焦于大规模模型或强化学习提升推理,而本论文从训练范式革新角度提供了新方向。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问