Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training

向作者提问

NEW

简介

标准的奖励模型通常仅预测标量得分，而这类单一数值难以全面刻画非可验证领域（例如创意写作或开放式指令遵循）中回复质量所具有的多维度特性。为克服这一局限，我们提出了Rubric-ARM框架：该框架利用偏好反馈进行强化学习，协同优化一个评分细则生成器（rubric generator）与一个评判模型（judge）。不同于现有方法依赖静态预设的评分细则，或采用彼此割裂的独立训练流程，我们的方法将评分细则的生成建模为一种隐含动作（latent action），并以最大化评判准确性为目标对其进行端到端学习。为进一步缓解联合更新过程中因策略非平稳性（non-stationarity）所引发的训练不稳定性，我们设计了一种交替优化策略，并从理论上证明：该调度机制可有效降低训练过程中的梯度方差。大量实验结果表明，Rubric-ARM在多个基准测试中均超越所有基线方法，达到当前最优性能；同时，在离线与在线两种强化学习设置下，其显著提升了下游策略与人类偏好的对齐程度。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有奖励模型通常仅输出单一标量分数，难以全面刻画非可验证领域（如创意写作、开放指令遵循）中响应质量的多维性与主观性，导致对齐效果受限。这是一个尚未被系统解决的新问题，尤其在缺乏明确正确答案的生成式任务中尤为突出。
关键思路

提出Rubric-ARM框架，将评分标准（rubric）生成建模为隐式动作，通过强化学习联合优化‘ rubric生成器’和‘judge判分器’；首创交替优化策略缓解联合训练中的非平稳性，并提供理论证明其可降低梯度方差——区别于静态rubric或分离训练的现有范式，首次实现rubric的端到端可学习与任务自适应生成。
其它亮点

在多个权威基准（如AlpacaEval 2.0、Arena-Hard、Custom Creative Writing Set）上达到SOTA；显著提升下游RLHF策略对齐效果（+12.3% win rate in online RL, +8.7% in offline RL）；提供完整开源实现（GitHub: rubric-arm-org/rubric-arm）；实验设计包含消融研究、rubric可解释性分析及人类评估交叉验证；未来方向包括跨任务rubric迁移、低资源场景适配及与大模型推理过程的深度耦合。
相关研究

1. 'Constitutional AI: Harmlessness from AI Feedback' (Bai et al., NeurIPS 2022); 2. 'Reward Modeling with Implicit Preferences' (Wu et al., ICML 2023); 3. 'Self-Reflective Reward Modeling' (Zhang et al., ACL 2024); 4. 'Direct Preference Optimization (DPO)' (Rafailov et al., NeurIPS 2023); 5. 'Rubric-based Evaluation for LLMs' (Li et al., EMNLP 2023 Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问