OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment

向作者提问

NEW

简介

奖励建模是基于人类反馈的强化学习（RLHF）的核心，然而目前大多数现有的奖励模型依赖于标量评分或成对比较判断，难以捕捉人类偏好的多维特性。近期研究探索了“以评分准则作为奖励”（rubrics-as-rewards, RaR）的方法，该方法采用结构化的自然语言准则，能够体现回答质量的多个维度。然而，生成既可靠又可扩展的评分准则仍是一个关键挑战。在本研究中，我们提出了OpenRubrics——一个多样化且规模庞大的（提示，评分准则）数据集，可用于训练评分准则生成模型以及基于评分准则的奖励模型。为了获取具有区分性和全面性的评估信号，我们提出了对比式评分准则生成（Contrastive Rubric Generation, CRG）方法，通过对比优选回答与被拒回答，从中提炼出硬性规则（明确的约束条件）和原则性标准（隐含的质量特征）。为进一步提升可靠性，我们通过拒绝采样（rejection sampling）强制确保评分准则与偏好标签的一致性，从而剔除噪声准则。在多个奖励建模基准测试中，我们基于评分准则的奖励模型Rubric-RM比同规模的强基线模型性能高出6.8%。这些优势进一步迁移到策略模型上，在指令遵循和生物医学领域的基准任务中均表现出色。我们的结果表明，评分准则提供了可扩展的对齐信号，有效缩小了高成本人工评估与自动化奖励建模之间的差距，为大语言模型的对齐提供了一种新的、以原则驱动的范式。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的基于人类反馈的强化学习（RLHF）中的奖励模型多依赖于标量或成对比较的人类偏好信号，这些信号难以捕捉人类偏好的多维度、复杂性。尽管近期研究尝试使用结构化自然语言标准（如评分细则，rubrics）作为奖励信号（RaR），但如何生成既可靠又可扩展的评分细则仍是一个关键挑战。
关键思路

提出 Contrastive Rubric Generation (CRG) 方法，通过对比优选和被拒的回复，自动提取硬性规则（显式约束）和原则（隐含质量），从而生成结构化的评分细则；并引入基于拒绝采样的偏好标签一致性机制，过滤噪声 rubrics，提升生成质量与可靠性。
其它亮点

构建了大规模、多样化的开源数据集 OpenRubrics，包含大量（prompt, rubric）对，支持 rubric 生成与基于 rubric 的奖励建模；提出的 Rubric-RM 模型在多个基准上超越同规模基线模型 6.8%，且性能增益可迁移到策略模型，在指令遵循与生物医学任务中表现优异；代码与数据集已开源，推动可解释、原则驱动的大模型对齐新范式。
相关研究

1. Reward Modeling with Human Feedback: A Comprehensive Survey 2. Learning to Summarize with Human Feedback (Stiennon et al., NeurIPS 2020) 3. Constitutional AI: Harmlessness from AI Feedback (Bai et al., 2022) 4. Rubrics as Rewards for Language Model Evaluation (Peng et al., ACL 2023) 5. Principled Instruction Tuning Improves Zero-Shot Generalization (Yu et al., ICLR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问