Reasoning with Sampling: Your Base Model is Smarter Than You Think

2025年10月16日
  • 简介
    前沿的推理模型在多个领域展现出惊人的能力,这主要得益于使用强化学习(RL)对大型语言模型(LLM)进行后训练。然而,尽管这一范式取得了广泛成功,大量研究文献仍致力于厘清那些在强化学习过程中涌现、但在基础模型中并不存在的真正新颖行为。在本研究中,我们从一个不同的角度探讨这一问题,转而提出:能否仅通过推理阶段的纯采样方法,无需任何额外训练,就从基础模型中激发出相当甚至更强的推理能力?受马尔可夫链蒙特卡洛(MCMC)方法从锐化分布中采样的启发,我们提出了一种简单的迭代采样算法,该算法充分利用基础模型自身的似然性。在多种不同的基础模型上,我们证明了该算法能显著提升推理性能,在包括MATH500、HumanEval和GPQA在内的多种单次生成任务上,其效果几乎达到甚至超过强化学习后训练的结果。此外,我们的采样器避免了强化学习后训练所常见的多次采样中多样性衰减的问题。尤为重要的是,我们的方法无需额外训练、无需精心构建的数据集,也无需验证器,表明其适用范围远不止于易于验证的任务领域,具有广泛的实用性。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决的问题是:是否可以在不进行额外训练(如强化学习)的情况下,仅通过推理时的采样方法从基础大语言模型中激发出接近或超越强化学习后训练模型的推理能力。这个问题关注的是当前主流RL后训练范式中真正由RL带来的新增行为,以及这些能力是否其实已隐含在基础模型中,只是未被传统解码方法充分挖掘。这是一个重要且较新的问题,挑战了‘必须通过RL才能获得高级推理能力’的普遍假设。
  • 关键思路
    论文的关键思路是受到马尔可夫链蒙特卡洛(MCMC)和分布锐化技术的启发,提出一种基于基础模型自身似然的迭代采样算法,在推理时逐步优化生成路径,从而提升推理表现。与需要额外训练、奖励模型或验证器的RL方法不同,该方法完全无需训练,仅通过纯采样即可显著增强基础模型的推理能力,揭示了基础模型中潜在的高阶推理能力可通过更智能的解码策略释放。
  • 其它亮点
    实验设计在多个单次生成任务上验证了方法的有效性,包括MATH500(数学推理)、HumanEval(代码生成)和GPQA(高难度问答)。结果显示,该方法在性能上接近甚至超过经过RL后训练的模型,同时避免了RL常见的样本多样性崩溃问题。值得注意的是,该方法无需训练、无需标注数据集、也无需验证器,具备极强的通用性和部署便捷性。代码是否开源未在摘要中提及,但其方法本身为后续研究提供了一个全新的推理时放大模型能力的方向,值得深入探索采样策略与模型内部知识结构的关系。
  • 相关研究
    1. ‘Chain-of-Thought Prompting Elicits Reasoning in Large Language Models’ 2. ‘Self-Consistency Improves Chain of Thought Reasoning in Language Models’ 3. ‘Tree of Thoughts: Deliberate Problem Solving with Large Language Models’ 4. ‘Graph of Thoughts: Solving Elaborate Problems with Large Language Models’ 5. ‘Reinforcement Learning from Human Feedback (RLHF): A Brief Overview’ 6. ‘Large Language Models are Zero-Shot Reasoners’ 7. ‘STaR: Bootstrapping Reasoning with Reasoning’
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问