Does Thinking More always Help? Understanding Test-Time Scaling in Reasoning Models

2025年06月04日
  • 简介
    近期在推理模型测试阶段扩展规模的趋势(例如,OpenAI 的 o1,DeepSeek 的 R1)导致了一种普遍的看法,即通过提示如“稍等”或“让我重新思考”来延长思考过程可以提升性能。这自然引发了一个问题:在测试时更多地思考是否真的能带来更好的推理能力?为了解答这个问题,我们对不同模型和基准进行了详细的实证研究,结果揭示了一个一致的模式:额外的思考最初会带来性能的提升,但随后由于“过度思考”而下降。 为了理解这种非单调趋势,我们考虑了一个简单的概率模型,该模型表明,更多的思考会增加输出的方差——虽然表面上看起来推理有所改善,但实际上削弱了精确性。因此,观察到的“更多思考”所带来的收益并不是推理能力真正提升的指标,而是源于模型不确定性与评估指标之间联系所产生的伪影。这表明,通过延长思考来进行测试阶段的扩展并不是一种有效利用推理预算的方法。 认识到这些局限性后,我们提出了一种替代的测试阶段扩展方法——并行思考,其灵感来源于 Best-of-N 采样。我们的方法在同一推理预算内生成多条独立的推理路径,并通过多数投票选择最一致的响应,相较于延长思考的方法,准确率可提高多达 20%。这为推理模型的测试阶段扩展提供了一种简单而有效的新机制。
  • 图表
  • 解决问题
    该论文探讨了在推理模型中,通过扩展测试时间(例如使用'Wait'或'Let me rethink'等提示)是否能够真正提升模型的推理能力。这是一个重要的问题,因为尽管这一趋势变得流行,但其有效性和潜在限制尚未被系统研究。
  • 关键思路
    论文的关键思路是通过详细的实证研究揭示了额外思考对模型性能的影响是非单调的:初期会带来改进,但随后因‘过度思考’导致性能下降。进一步,论文提出了一种新的测试时间扩展方法——并行思考(Parallel Thinking),它通过生成多个独立推理路径并在同一推理预算内选择最一致的回答,显著提高了准确性。
  • 其它亮点
    实验设计覆盖了多种模型和基准测试集,并通过一个简单的概率模型解释了过度思考现象。论文还提出了并行思考方法,相较于传统的扩展思考方法,可提高多达20%的准确性。此外,论文指出了传统评估指标与模型不确定性之间的联系可能导致误导性的结论。遗憾的是,摘要未提及代码是否开源,但为未来研究提供了方向,如探索更优的多数投票机制或其他形式的集成推理。
  • 相关研究
    相关研究包括OpenAI关于o1模型的工作、DeepSeek的R1模型研究,以及Best-of-N采样技术的应用。其他相关的研究可能涉及模型校准、推理过程中的不确定性建模,以及多路径推理优化。一些相关的论文标题可能是《Test-Time Adaptation for Language Models》、《Scaling Laws for Neural Language Models》和《Ensemble Methods in Deep Learning》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论