Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

向作者提问

NEW

简介

标准奖励模型通常仅预测标量得分，而这类单一数值难以全面刻画不可验证领域（例如创意写作或开放式指令遵循）中回复质量的多维特性。为克服这一局限，我们提出了“量规增强型奖励建模框架”（Rubric-ARM），该框架通过基于偏好反馈的强化学习，联合优化一个量规生成器与一个评判模型（judge）。不同于现有依赖静态量规或彼此割裂的训练流程的方法，本方法将量规生成建模为一种隐含动作（latent action），并以最大化评判准确性为目标进行端到端学习。我们设计了一种交替优化策略，以缓解同步更新所引发的非平稳性问题，并从理论上证明：该调度机制可有效降低训练过程中的梯度方差。大量实验表明，Rubric-ARM在多个基准测试中均超越所有基线方法，达到当前最优性能；同时，在离线与在线两种强化学习设置下，其显著提升了下游策略与人类偏好的对齐效果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有奖励模型通常仅输出单一标量分数，难以充分刻画非可验证领域（如创意写作、开放式指令遵循）中响应质量的多维性与主观性；该问题在对齐大语言模型行为时尤为突出，且尚未被现有标量奖励建模方法系统性解决。
关键思路

提出Rubric-ARM框架，将评分标准（rubric）生成建模为隐式动作，与判分器（judge）联合优化；通过偏好反馈驱动的强化学习实现端到端协同训练，并创新性地采用交替优化策略缓解联合训练中的非平稳性问题，理论证明其可降低梯度方差。
其它亮点

首次将rubric生成作为可学习的潜变量而非固定模板或后处理步骤；在AlpacaEval 2.0、Arena-Hard、MT-Bench等主流基准上达到SOTA；支持offline RL（DPO微调）和online RL（PPO）两种下游对齐范式；实验包含消融研究、鲁棒性分析及人类评估验证；论文未明确提及开源代码，但方法设计清晰、模块解耦，便于复现。
相关研究

RewardBench: Towards a Unified Evaluation Framework for Reward Models (NeurIPS 2023); Direct Preference Optimization (DPO) (NeurIPS 2023); Self-Refine: Iterative Refinement with Self-Feedback (ICLR 2024); RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback (arXiv 2023); CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing (ACL 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问