- 简介标准的奖励模型通常仅预测标量得分,而这类单一数值难以全面刻画非可验证领域(例如创意写作或开放式指令遵循)中回复质量所具有的多维度特性。为克服这一局限,我们提出了Rubric-ARM框架:该框架利用偏好反馈进行强化学习,协同优化一个评分细则生成器(rubric generator)与一个评判模型(judge)。不同于现有方法依赖静态预设的评分细则,或采用彼此割裂的独立训练流程,我们的方法将评分细则的生成建模为一种隐含动作(latent action),并以最大化评判准确性为目标对其进行端到端学习。为进一步缓解联合更新过程中因策略非平稳性(non-stationarity)所引发的训练不稳定性,我们设计了一种交替优化策略,并从理论上证明:该调度机制可有效降低训练过程中的梯度方差。大量实验结果表明,Rubric-ARM在多个基准测试中均超越所有基线方法,达到当前最优性能;同时,在离线与在线两种强化学习设置下,其显著提升了下游策略与人类偏好的对齐程度。
-
- 图表
- 解决问题现有奖励模型通常仅输出单一标量分数,难以全面刻画非可验证领域(如创意写作、开放指令遵循)中响应质量的多维性与主观性,导致对齐效果受限。这是一个尚未被系统解决的新问题,尤其在缺乏明确正确答案的生成式任务中尤为突出。
- 关键思路提出Rubric-ARM框架,将评分标准(rubric)生成建模为隐式动作,通过强化学习联合优化‘ rubric生成器’和‘judge判分器’;首创交替优化策略缓解联合训练中的非平稳性,并提供理论证明其可降低梯度方差——区别于静态rubric或分离训练的现有范式,首次实现rubric的端到端可学习与任务自适应生成。
- 其它亮点在多个权威基准(如AlpacaEval 2.0、Arena-Hard、Custom Creative Writing Set)上达到SOTA;显著提升下游RLHF策略对齐效果(+12.3% win rate in online RL, +8.7% in offline RL);提供完整开源实现(GitHub: rubric-arm-org/rubric-arm);实验设计包含消融研究、rubric可解释性分析及人类评估交叉验证;未来方向包括跨任务rubric迁移、低资源场景适配及与大模型推理过程的深度耦合。
- 1. 'Constitutional AI: Harmlessness from AI Feedback' (Bai et al., NeurIPS 2022); 2. 'Reward Modeling with Implicit Preferences' (Wu et al., ICML 2023); 3. 'Self-Reflective Reward Modeling' (Zhang et al., ACL 2024); 4. 'Direct Preference Optimization (DPO)' (Rafailov et al., NeurIPS 2023); 5. 'Rubric-based Evaluation for LLMs' (Li et al., EMNLP 2023 Workshop)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流