Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators

向作者提问

NEW

简介

随着语言模型（LM）的输出变得越来越自然，评估其质量也变得比以往更加困难。同时，通过增加测试时的计算资源来延长语言模型的“思考”时间，已被证明是解决数学和编程等领域中复杂问题的有效技术。这引发了一个自然的问题：是否可以通过投入更多的测试时计算资源来提升语言模型的评估能力？为了解答这一问题，我们研究了使用推理模型——即能够自动生成长链条推理的语言模型——作为评估者的可行性。具体来说，我们探讨了两种方法以利用更多的测试时计算资源：(1) 使用推理模型，以及 (2) 引导这些模型不仅对整体回答进行评估（即结果评估），还对回答中的每一步单独进行评估（即过程评估）。在实验中，我们观察到，当生成更多推理标记时，评估者的性能呈现出单调提升的趋势，这种趋势与基于语言模型的生成任务中观察到的现象类似。此外，我们利用这些更准确的评估者对多个生成结果进行重新排序，并证明了在评估阶段投入更多计算资源可以与在生成阶段投入更多计算资源一样有效，从而提升语言模型的问题解决能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决如何更准确地评估语言模型（LM）输出质量的问题，尤其是在LM生成内容越来越自然的情况下，传统的评估方法可能不再足够有效。此外，论文还探讨了是否可以通过增加测试时的计算资源来提升LM作为评估者的性能。
关键思路

论文提出使用推理模型（reasoning models）作为评估者，并通过生成长链思考过程（chain-of-thought reasoning）来提高评估准确性。关键思路是不仅对最终结果进行评估（outcome evaluation），还对生成过程中的每一步进行单独评估（process evaluation）。这种方法与当前主流的直接评估整体输出的方式不同，强调了逐步推理的重要性。
其它亮点

1. 实验表明，通过生成更多的推理token，评估器的性能可以单调提升，类似于在生成任务中观察到的趋势。2. 使用改进后的评估器对多个生成结果进行重排序，发现增加测试时间计算资源的效果与增加生成时计算资源的效果相当。3. 论文未提及具体数据集或开源代码，但提出了一些值得进一步研究的方向，例如如何设计更高效的评估策略和结合人类反馈优化评估器。
相关研究

近期相关研究包括：1. 'Chain of Thought Prompting Elicits Reasoning in Large Language Models'，探讨了通过提示引导大模型生成链式推理的能力。2. 'Rethinking Evaluation in the Age of Foundation Models'，讨论了基础模型时代下的新型评估方法。3. 'Training Verifiers to Solve Math Word Problems'，研究了通过训练验证器来解决数学问题的方法。这些工作都与本论文的研究方向密切相关，即如何利用推理能力和更多计算资源提升模型性能。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问