- 简介奖励建模是通过从人类反馈中进行强化学习,使大型语言模型与人类偏好对齐的关键步骤。为了提供准确的奖励信号,奖励模型(RM)应在分配分数或做出判断之前,激发深度思考并进行可解释的推理。受最近在推理密集型任务上长链式思考进展的启发,我们假设并验证了将推理能力整合到奖励建模中,可以显著提升奖励模型的可解释性和性能。为此,我们引入了一类新的生成式奖励模型——推理奖励模型(Reasoning Reward Models, ReasRMs),它将奖励建模视为一项推理任务。 我们提出了一种以推理为导向的训练流程,并训练了一系列ReasRMs,命名为RM-R1。RM-R1的一个核心特点是“评分链条机制”(Chain-of-Rubrics, CoR)——自动生成样本级别的对话评分标准或数学/代码解决方案,并根据这些标准评估候选响应。RM-R1的训练包括两个关键阶段:(1)高质量推理链条的蒸馏;(2)基于可验证奖励的强化学习。 实证结果表明,我们的模型在三个奖励模型基准测试中的平均表现达到了当前最佳水平,相较于更大规模的开源权重模型(如INF-ORM-Llama3.1-70B)和专有模型(如GPT-4o),性能提升了高达4.9%。除了最终性能外,我们还进行了深入的实证分析,以理解成功训练ReasRM的关键要素。为推动未来研究,我们发布了六个REASRM模型,并公开了相关代码和数据,地址为:https://github.com/RM-R1-UIUC/RM-R1。
- 图表
- 解决问题论文试图通过改进奖励模型(Reward Model, RM)的可解释性和性能,解决当前大型语言模型在强化学习中对人类偏好对齐不足的问题。这是一个重要且持续研究的问题,尤其是在如何让RM更准确地反映人类反馈方面。
- 关键思路论文提出了一种新的生成式奖励模型——Reasoning Reward Models (ReasRMs),将奖励建模视为一种推理任务,并引入了链式评分标准(Chain-of-Rubrics, CoR)机制。这种机制通过自动生成样本级别的评估标准或解决方案,并据此评价候选响应,显著增强了RM的推理能力和可解释性。相比传统方法,ReasRMs通过两阶段训练(高质量推理链蒸馏和带有可验证奖励的强化学习)进一步提升了性能。
- 其它亮点1. 提出了基于推理的奖励建模框架ReasRMs,大幅提升了奖励模型的性能和可解释性;2. 在三个基准测试中取得了超越现有开源和专有模型(如INF-ORM-Llama3.1-70B和GPT-4o)的结果,平均提升4.9%;3. 提供了详细的实验设计与分析,包括数据集来源、训练流程以及模型的关键成分;4. 开源了六个ReasRM模型及其代码和数据,为未来研究提供了丰富的资源;5. 强调了链式评分标准(CoR)机制的重要性,值得进一步探索。
- 最近的相关研究包括:1. 'Training Language Models to Follow Instructions with Human Feedback',探讨了通过人类反馈优化语言模型的方法;2. 'Reward Modeling with Large Language Models',研究了如何利用大规模语言模型生成高质量奖励信号;3. 'Chain-of-Thought Reasoning for Language Models',专注于提升语言模型在复杂推理任务中的表现;4. 'Interpretable Reward Learning for Reinforcement Learning',提出了增强奖励学习可解释性的技术。这些工作共同推动了奖励建模和语言模型对齐领域的进步。
沙发等你来抢
去评论
评论
沙发等你来抢