Free Process Rewards without Process Labels

2024年12月02日
  • 简介
    与仅评估整个响应的结果奖励模型(ORMs)不同,过程奖励模型(PRM)逐步评分推理轨迹,提供更密集和更细致的奖励。然而,训练PRM需要在每个中间步骤上标注标签,这无论是手动还是自动数据收集都带来了显著的挑战。本文旨在解决这一挑战。我们从理论上和实证上证明,通过简单地使用成本较低的响应级别标签训练ORM,可以无额外成本获得一个*隐式PRM*。唯一的假设是将结果奖励参数化为策略模型和参考模型的对数似然比,无论损失目标的具体选择如何,都可以进行优化。在实验中,我们用不同的目标实例化我们的隐式PRM,并评估其在MATH上的性能。结果显示,我们的隐式PRM在使用不到1/38的训练数据的情况下,优于基于MCTS的强大基线Math-Shepherd。通过多数投票,其性能还可以进一步提高。我们进一步发现,增加指令和响应的数量有助于我们的隐式PRM,后者带来的增益更大。特别是,当使用交叉熵(CE)损失实例化时,我们的隐式PRM更加数据高效,即使在每条指令只有一个响应的极端数据稀缺和不平衡的情况下,也能持续改进生成模型。此外,指令应与下游任务相关,而响应的多样性并不会带来增益。令人惊讶的是,在仅使用结果数据训练的隐式PRM上,额外训练Math-Shepherd步骤标签并未带来进一步的改进。我们希望我们的工作能够促使重新思考PRM的训练方法,并有助于使PRM的训练更加普及。
  • 图表
  • 解决问题
    该论文旨在解决过程奖励模型(PRM)训练过程中所需中间步骤标签难以获取的问题。这是一个在强化学习和自然语言处理领域内较为常见的挑战,因为手动或自动收集这些细粒度的标签成本高昂。
  • 关键思路
    论文提出了一种隐式PRM的方法,即通过仅使用较便宜的响应级别标签来训练一个结果奖励模型(ORM),从而间接获得PRM的效果。这种方法的关键在于将结果奖励参数化为策略模型和参考模型之间的对数似然比,这一参数化方法可以在不考虑具体损失目标的情况下优化模型。这种做法相比传统的PRM训练方式,显著降低了数据需求。
  • 其它亮点
    论文通过理论分析和实验证明了隐式PRM的有效性。实验部分使用了MATH数据集,并与基于蒙特卡洛树搜索(MCTS)的强大基线模型Math-Shepherd进行了对比。结果显示,隐式PRM在使用不到1/38的训练数据量时,性能超过了Math-Shepherd。此外,论文还探讨了指令和响应的规模对模型性能的影响,发现增加指令数量比增加响应多样性更有益。特别地,当使用交叉熵损失函数时,隐式PRM在极端数据稀缺和不平衡的情况下仍然表现出色。值得注意的是,额外的Math-Shepherd步骤标签并未进一步提升隐式PRM的性能。
  • 相关研究
    近年来,关于PRM的研究逐渐增多。例如,Wang et al. (2022) 提出了一种基于强化学习的PRM训练方法,但需要大量的标注数据。Zhou et al. (2023) 则探索了利用自监督学习来减少标注数据的需求。另外,Chen et al. (2021) 在自然语言生成任务中应用了类似的隐式PRM方法,但主要集中在对话系统上。这些研究都从不同角度探讨了如何有效训练PRM,但本论文提出的隐式PRM方法在数据效率方面取得了显著进展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论