Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning

2024年10月10日
  • 简介
    一种提高大型语言模型推理能力的有前途的方法是使用过程奖励模型(PRMs)。PRMs在多步推理过程中的每个步骤提供反馈,可能比仅在最后一步提供反馈的结果奖励模型(ORMs)提供更好的信用分配。然而,收集每步密集的人工标签不可扩展,目前从自动标记的数据中训练PRMs的效果有限。为了通过针对PRM运行搜索或将其用作增强学习(RL)的密集奖励来改进基本策略,我们问:“我们应该如何设计过程奖励?”我们的关键洞察是,为了有效,步骤的过程奖励应该衡量进展:在采取步骤之前和之后,未来产生正确响应的可能性的变化,对应于RL中的步骤级优势的概念。至关重要的是,这种进展应该在与基本策略不同的prover策略下进行测量。我们在理论上表征了好的provers的集合,我们的结果表明,从这些provers优化过程奖励可以改善测试时搜索和在线RL中的探索。实际上,我们的表征表明,弱prover策略可以大大改善更强的基本策略,这也是我们在经验上观察到的。我们通过训练过程优势验证器(PAVs)来验证我们的说法,以预测这些provers下的进展,并显示与ORM相比,针对PAVs的测试时搜索精度提高了$>8\%$,计算效率提高了$1.5-5\times$。使用PAVs的在线RL实现了$5-6\times$的样本效率提高和$>6\%$的准确性提高,这是其中的首批结果之一。
  • 图表
  • 解决问题
    本论文旨在解决如何设计过程奖励以提高大型语言模型中的推理能力的问题。作者认为,使用过程奖励模型(PRMs)可以在多步推理中提供反馈,从而改善结果奖励模型(ORMs)的信用分配。但是,收集每步密集的人工标签是不可扩展的,因此从自动标记的数据中训练PRMs迄今为止收效甚微。
  • 关键思路
    本文的关键思路是,为了有效,步骤的过程奖励应该衡量进展:在采取步骤之前和之后生成正确答案的可能性的变化,对应于RL中的步骤级优势的概念。关键是,这种进展应该在不同于基本策略的证明者策略下进行测量。
  • 其它亮点
    本文的亮点包括:理论上表征了好的证明者的集合,并且优化这些证明者的过程奖励可以提高测试时间搜索和在线RL的探索;通过训练过程优势验证器(PAVs)来预测这些证明者下的进展,与ORM相比,PAVs的测试时间搜索精度提高了> 8%,计算效率提高了1.5-5倍;使用PAVs的密集奖励进行在线RL,是第一个在样本效率上获得5-6倍收益和> 6%准确率提高的结果。
  • 相关研究
    在这个领域中,其他相关的研究包括:使用PRMs进行多步推理的研究,使用RL进行多步推理的研究,使用ORMs进行多步推理的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论