RM-R1: Reward Modeling as Reasoning

2025年05月05日
  • 简介
    奖励建模是通过强化学习(RL)将大型语言模型(LLMs)与人类偏好对齐的关键。为了提供准确的奖励信号,奖励模型(RM)应在分配分数或做出判断之前,激发深度思考并进行可解释的推理。受到近期在推理密集型任务中长链思维(CoT, chain-of-thought)进展的启发,我们假设并验证了将推理能力整合到奖励建模中可以显著提升RM的可解释性和性能。为此,我们引入了一类新的生成式奖励模型——推理奖励模型(ReasRMs),它将奖励建模视为一项推理任务。我们提出了一种以推理为导向的训练流程,并训练了一系列ReasRMs,称为RM-R1。RM-R1采用了一种评分链条机制(CoR, chain-of-rubrics)——自动生成样本级别的对话评分标准或数学/代码解决方案,并根据这些标准评估候选响应。M-R1的训练包含两个关键阶段:(1)高质量推理链条的蒸馏;(2)带有可验证奖励的强化学习。实证结果表明,我们的模型在三个奖励模型基准测试中平均表现达到最先进水平,超越了更大规模的开源权重模型(如INF-ORM-Llama3.1-70B)和专有模型(如GPT-4o),最高超出4.9%。除了最终性能外,我们还进行了深入的实证分析,以理解成功训练ReasRM的关键因素。为了推动未来研究,我们发布了六个ReasRM模型,以及相关代码和数据,地址为 https://github.com/RM-R1-UIUC/RM-R1。
  • 图表
  • 解决问题
    论文试图解决如何通过强化学习(RL)将大型语言模型(LLMs)与人类偏好对齐的问题,特别是如何设计更准确、可解释的奖励信号。这是一个重要但尚未完全解决的问题,尤其是在提升奖励模型(RM)的性能和可解释性方面。
  • 关键思路
    论文提出了一种新的生成式奖励模型——Reasoning Reward Models (ReasRMs),将奖励建模视为一个推理任务。关键创新点在于引入了链式评分标准(CoR, Chain-of-Rubrics)机制,该机制自动生成样本级别的评分规则或解决方案,并据此评估候选响应。此外,模型训练分为两个阶段:高质量推理链的蒸馏和基于可验证奖励的强化学习,这显著提升了模型的性能和可解释性。
  • 其它亮点
    1. ReasRM在三个奖励模型基准测试中取得了当前最佳性能,超越了更大规模的开源模型(如INF-ORM-Llama3.1-70B)和专有模型(如GPT-4o)。2. 论文详细分析了成功训练ReasRM的关键因素,为后续研究提供了指导。3. 提供了六个ReasRM模型的开源代码和数据,有助于推动领域内进一步研究。4. 实验设计严谨,涵盖了多个数据集,验证了模型在不同场景下的泛化能力。
  • 相关研究
    近期相关研究包括:1. 'Reward Modeling with Human Feedback',探讨了如何通过人类反馈改进奖励模型的设计。2. 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models',研究了长链推理在LLMs中的应用。3. 'Aligning Language Models with Human Preferences via Reinforcement Learning from Human Feedback',提出了通过人类反馈强化学习来对齐语言模型的方法。这些研究共同推动了奖励建模和模型对齐技术的进步。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论