Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

2025年07月23日
  • 简介
    将可验证奖励强化学习(RLVR)扩展到现实任务中,通常需要在客观和主观评估标准之间取得平衡。然而,许多此类任务并不存在单一且明确的真值标准,这使得为训练后的语言模型定义可靠的奖励信号变得困难。虽然传统的基于偏好的方法提供了一种替代方案,但它们依赖于难以解释且容易产生虚假关联的黑箱奖励函数。我们提出了“**量规即奖励**”(Rubrics as Rewards,RaR)这一框架,该框架使用结构化的、清单风格的评分量表作为可解释的奖励信号,用于基于GRPO的策略训练。在 HealthBench-1k 数据集上,我们最优的 RaR 方法相比简单的李克特量表方法实现了高达 28% 的相对提升,同时其表现达到甚至超过了基于专家撰写参考答案生成的奖励信号。通过将评分量表视为结构化的奖励信号,我们证明 RaR 使规模较小的判断模型也能更好地与人类偏好保持一致,并在不同规模的语言模型上保持稳健的性能。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在现实任务中扩展强化学习(RLVR)时如何平衡客观和主观评估标准的问题。由于许多任务缺乏单一、明确的真值,定义可靠的奖励信号变得困难。这是一个相对较新的问题,尤其在语言模型后训练和奖励建模领域。
  • 关键思路
    论文提出了一种新的框架RaR(Rubrics as Rewards),使用结构化的检查表式评分标准作为可解释的奖励信号,并结合GRPO进行策略内训练。相比传统的基于偏好的方法,RaR通过可解释的评分标准提升奖励函数的透明性和稳定性,避免了虚假相关性问题。
  • 其它亮点
    1. RaR在HealthBench-1k数据集上比基于Likert的方法相对提升了28% 2. RaR的奖励信号表现与专家编写的参考答案相当或更优 3. 该方法使较小规模的判断模型也能与人类偏好高度对齐,并在不同模型规模下保持稳定性能 4. 实验设计强调了结构化奖励信号在语言模型训练中的可解释性与有效性
  • 相关研究
    1. Preference-based Reinforcement Learning with Human Feedback 2. Scalable Reward Learning from Demonstration 3. Aligning Language Models to Human Preferences via Reinforcement Learning 4. Structured Reward Models for Transformer-based Policy Optimization 5. Explainable AI for Reinforcement Learning Systems
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问