- 简介奖励建模是使大型语言模型(LLMs)与人类偏好对齐的关键,尤其是在通过人类反馈进行强化学习(RLHF)的过程中。为了提供准确的奖励信号,奖励模型(RM)应在分配分数或做出判断之前,激发深度思考并进行可解释的推理。然而,现有的奖励模型要么生成不透明的标量分数,要么直接预测偏好的答案,这使得它们难以整合自然语言批评,从而缺乏可解释性。受最近在推理密集型任务中长链思维(CoT)进展的启发,我们假设并验证了将推理能力融入奖励建模可以显著增强奖励模型的可解释性和性能。在本研究中,我们引入了一种新的生成式奖励模型——推理奖励模型(ReasRMs),它将奖励建模视为一项推理任务。我们提出了一种以推理为导向的训练流程,并训练了一系列ReasRMs,称为RM-R1。训练包含两个关键阶段:(1)高质量推理链的蒸馏,以及(2)带有可验证奖励的强化学习。RM-R1通过自动生成推理轨迹或特定于对话的评分标准来改进LLM的策略 rollout,并根据这些标准评估候选响应。实证结果表明,我们的模型在多个全面的奖励模型基准测试中达到了最先进的或接近最先进的性能,超越了规模大得多的开源模型(例如Llama3.1-405B)和专有模型(例如GPT-4o),性能提升高达13.8%。除了最终性能外,我们还进行了深入的实证分析,以理解成功训练ReasRM的关键因素。为了促进未来的研究,我们在https://github.com/RM-R1-UIUC/RM-R1上发布了六个ReasRM模型及其代码和数据。
- 图表
- 解决问题该论文试图解决大型语言模型(LLMs)在对齐人类偏好时奖励信号缺乏解释性的问题。现有的奖励模型(RMs)要么生成不透明的标量分数,要么直接预测首选答案,无法有效整合自然语言批评。这并非一个全新问题,但将推理能力引入奖励建模以提升可解释性和性能是一个新的研究方向。
- 关键思路论文提出了一种名为Reasoning Reward Models(ReasRMs)的新类别的生成式奖励模型,将奖励建模视为推理任务。关键思路是通过两阶段训练:1)高质量推理链的蒸馏;2)带有可验证奖励的强化学习。这种方法使模型能够自动生成推理轨迹或特定聊天评分标准,并据此评估候选响应。相比现有研究,ReasRMs显著增强了奖励模型的解释性和性能。
- 其它亮点1. ReasRM模型在多个全面的奖励模型基准测试中达到或接近最先进水平,甚至超越了更大规模的开源模型(如Llama3.1-405B)和专有模型(如GPT-4o)多达13.8%;2. 提供了详细的实验设计和分析,揭示了成功训练ReasRMs的关键要素;3. 开源了六个ReasRM模型及其代码和数据,便于未来研究;4. 强调了推理能力的重要性,为后续研究指明了方向,例如如何进一步优化推理链的质量和多样性。
- 相关研究包括:1)基于人类反馈的强化学习(RLHF),例如InstructGPT系列的研究;2)奖励模型的可解释性改进,例如OpenAI的“Training language models to follow instructions”;3)长链推理(CoT)在复杂任务中的应用,例如“Chain of Thought Prompting Elicits Reasoning in Large Language Models”。此外,还有类似的工作探索了生成式奖励模型的设计与优化,例如“Reward Modeling with Human Feedback: A Survey”。
沙发等你来抢
去评论
评论
沙发等你来抢