- 简介奖励建模是基于人类反馈的强化学习(RLHF)的核心,然而目前大多数现有的奖励模型依赖于标量评分或成对比较判断,难以捕捉人类偏好的多维特性。近期研究探索了“以评分准则作为奖励”(rubrics-as-rewards, RaR)的方法,该方法采用结构化的自然语言准则,能够体现回答质量的多个维度。然而,生成既可靠又可扩展的评分准则仍是一个关键挑战。在本研究中,我们提出了OpenRubrics——一个多样化且规模庞大的(提示,评分准则)数据集,可用于训练评分准则生成模型以及基于评分准则的奖励模型。为了获取具有区分性和全面性的评估信号,我们提出了对比式评分准则生成(Contrastive Rubric Generation, CRG)方法,通过对比优选回答与被拒回答,从中提炼出硬性规则(明确的约束条件)和原则性标准(隐含的质量特征)。为进一步提升可靠性,我们通过拒绝采样(rejection sampling)强制确保评分准则与偏好标签的一致性,从而剔除噪声准则。在多个奖励建模基准测试中,我们基于评分准则的奖励模型Rubric-RM比同规模的强基线模型性能高出6.8%。这些优势进一步迁移到策略模型上,在指令遵循和生物医学领域的基准任务中均表现出色。我们的结果表明,评分准则提供了可扩展的对齐信号,有效缩小了高成本人工评估与自动化奖励建模之间的差距,为大语言模型的对齐提供了一种新的、以原则驱动的范式。
-
- 图表
- 解决问题现有的基于人类反馈的强化学习(RLHF)中的奖励模型多依赖于标量或成对比较的人类偏好信号,这些信号难以捕捉人类偏好的多维度、复杂性。尽管近期研究尝试使用结构化自然语言标准(如评分细则,rubrics)作为奖励信号(RaR),但如何生成既可靠又可扩展的评分细则仍是一个关键挑战。
- 关键思路提出 Contrastive Rubric Generation (CRG) 方法,通过对比优选和被拒的回复,自动提取硬性规则(显式约束)和原则(隐含质量),从而生成结构化的评分细则;并引入基于拒绝采样的偏好标签一致性机制,过滤噪声 rubrics,提升生成质量与可靠性。
- 其它亮点构建了大规模、多样化的开源数据集 OpenRubrics,包含大量(prompt, rubric)对,支持 rubric 生成与基于 rubric 的奖励建模;提出的 Rubric-RM 模型在多个基准上超越同规模基线模型 6.8%,且性能增益可迁移到策略模型,在指令遵循与生物医学任务中表现优异;代码与数据集已开源,推动可解释、原则驱动的大模型对齐新范式。
- 1. Reward Modeling with Human Feedback: A Comprehensive Survey 2. Learning to Summarize with Human Feedback (Stiennon et al., NeurIPS 2020) 3. Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022) 4. Rubrics as Rewards for Language Model Evaluation (Peng et al., ACL 2023) 5. Principled Instruction Tuning Improves Zero-Shot Generalization (Yu et al., ICLR 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流