Process Reinforcement through Implicit Rewards

2025年02月03日
  • 简介
    密集过程奖励已被证明是大型语言模型(LLMs)推理时间扩展中的一种更为有效的替代方案,尤其是在需要复杂多步推理的任务中,相比稀疏的结果级奖励更有效。尽管密集奖励也为LLMs的强化学习(RL)提供了一个有吸引力的选择,因为其细粒度奖励有可能解决一些结果奖励的固有问题,如训练效率和功劳分配问题,但这种潜力在很大程度上尚未实现。这主要归因于在线训练过程奖励模型(PRMs)面临的挑战,其中收集高质量的过程标签成本过高,使得它们特别容易受到奖励欺骗的影响。为了解决这些挑战,我们提出了PRIME(通过隐式奖励进行过程强化),它仅使用策略展开和结果标签通过隐式过程奖励来实现在线PRM更新。PRIME与各种优势函数结合良好,并且不需要现有方法所需的专门奖励模型训练阶段,从而大大减少了开发开销。我们在竞争性数学和编程任务上展示了PRIME的有效性。从Qwen2.5-Math-7B-Base开始,PRIME在多个关键推理基准上平均比SFT模型提高了15.1%。值得注意的是,我们的最终模型Eurus-2-7B-PRIME仅用十分之一的训练数据就在七个推理基准上超过了Qwen2.5-Math-7B-Instruct。
  • 图表
  • 解决问题
    论文试图解决在大规模语言模型(LLMs)中,稀疏结果奖励在多步推理任务中的不足,特别是训练效率和信用分配问题。这是一个已知的问题,但之前的方法未能有效解决在线训练过程奖励模型(PRMs)时面临的挑战,如高质量过程标签的收集成本高以及容易受到奖励劫持的影响。
  • 关键思路
    关键思路是引入PRIME(Process Reinforcement through IMplicit rEwards),一种无需显式过程标签即可更新PRM的方法。PRIME仅依赖策略回放和结果标签,通过隐式过程奖励进行在线学习,从而避免了传统方法中高昂的数据标注成本,并减少了奖励劫持的风险。相比现有方法,PRIME不需要专门的奖励模型训练阶段,降低了开发复杂度。
  • 其它亮点
    论文展示了PRIME在竞争性数学和编程任务上的有效性。实验表明,从Qwen2.5-Math-7B-Base开始,PRIME在多个推理基准上平均提高了15.1%的表现。最终模型Eurus-2-7B-PRIME在七个推理基准上超越了Qwen2.5-Math-7B-Instruct,且仅用了其10%的训练数据。此外,PRIME可以与不同的优势函数结合使用,进一步增强了其灵活性和适用性。代码和模型均已开源,便于后续研究。
  • 相关研究
    最近在这个领域中,相关的研究包括: 1. "Reward Design for Large Language Models via Human Feedback" - 探讨了通过人类反馈设计奖励机制的方法。 2. "Sparse vs Dense Rewards in Deep Reinforcement Learning" - 比较了稀疏和密集奖励在深度强化学习中的表现。 3. "Mitigating Reward Hacking in Reinforcement Learning" - 研究了如何减少奖励劫持对模型训练的影响。 4. "Online Training of Reward Models for Language Agents" - 讨论了在线训练奖励模型的技术和挑战。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论