- 简介标准奖励模型通常仅预测标量得分,而这类单一数值难以全面刻画不可验证领域(例如创意写作或开放式指令遵循)中回复质量的多维特性。为克服这一局限,我们提出了“量规增强型奖励建模框架”(Rubric-ARM),该框架通过基于偏好反馈的强化学习,联合优化一个量规生成器与一个评判模型(judge)。不同于现有依赖静态量规或彼此割裂的训练流程的方法,本方法将量规生成建模为一种隐含动作(latent action),并以最大化评判准确性为目标进行端到端学习。我们设计了一种交替优化策略,以缓解同步更新所引发的非平稳性问题,并从理论上证明:该调度机制可有效降低训练过程中的梯度方差。大量实验表明,Rubric-ARM在多个基准测试中均超越所有基线方法,达到当前最优性能;同时,在离线与在线两种强化学习设置下,其显著提升了下游策略与人类偏好的对齐效果。
-
- 图表
- 解决问题现有奖励模型通常仅输出单一标量分数,难以充分刻画非可验证领域(如创意写作、开放式指令遵循)中响应质量的多维性与主观性;该问题在对齐大语言模型行为时尤为突出,且尚未被现有标量奖励建模方法系统性解决。
- 关键思路提出Rubric-ARM框架,将评分标准(rubric)生成建模为隐式动作,与判分器(judge)联合优化;通过偏好反馈驱动的强化学习实现端到端协同训练,并创新性地采用交替优化策略缓解联合训练中的非平稳性问题,理论证明其可降低梯度方差。
- 其它亮点首次将rubric生成作为可学习的潜变量而非固定模板或后处理步骤;在AlpacaEval 2.0、Arena-Hard、MT-Bench等主流基准上达到SOTA;支持offline RL(DPO微调)和online RL(PPO)两种下游对齐范式;实验包含消融研究、鲁棒性分析及人类评估验证;论文未明确提及开源代码,但方法设计清晰、模块解耦,便于复现。
- RewardBench: Towards a Unified Evaluation Framework for Reward Models (NeurIPS 2023); Direct Preference Optimization (DPO) (NeurIPS 2023); Self-Refine: Iterative Refinement with Self-Feedback (ICLR 2024); RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback (arXiv 2023); CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing (ACL 2024)


提问交流