Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

向作者提问

NEW

简介

强化微调（RFT）常常面临“奖励过度优化”的问题，即策略模型通过利用奖励信号来获得高分，却生成了质量较低的输出。我们的理论分析表明，问题的关键在于高奖励尾部区域的奖励设定不当：难以可靠地区分“优秀”回复与仅仅是“良好”的回复。这促使我们关注高奖励区域。然而，在基础大语言模型下，这类高奖励尾部样本十分稀少。虽然可以通过离线策略获取示例（例如来自更强模型或人工重写），但直接在这些示例上训练会导致对目标策略模型产生奖励设定偏差。为解决这一问题，我们研究了基于评分量规（rubric）的奖励方法。评分量规的设计优势在于，既能利用离线策略示例，又能避免受到这些示例中人为偏差的影响。为了构建能够捕捉高奖励尾部特征的评分量规，我们强调了在高质量且多样化的回复之间进行细致区分的重要性，并提出了一套实现该思路的工作流程。实验结果表明，基于评分量规的奖励方法能显著缓解奖励过度优化问题，并有效提升大语言模型在后续训练中的表现。我们的代码可在 https://github.com/Jun-Kai-Zhang/rubrics.git 获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决强化微调（RFT）中的奖励过度优化问题，即策略模型通过‘欺骗’奖励信号获得高分，但生成质量低的输出。核心原因在于奖励函数在高奖励尾部存在误设，难以区分‘优秀’和‘极好’的回答。这是一个重要且实际的问题，尤其在基于人类反馈的强化学习（RLHF）中广泛存在，虽然问题已被部分观察到，但从奖励尾部分布误设角度进行形式化分析是较新的视角。
关键思路

提出使用基于评分标准（rubric-based rewards）的奖励机制，专注于高奖励区域的精细区分。通过设计能够利用来自更强模型或人工重写的离策略样例的评分标准，使奖励函数对这些样例的潜在偏差不敏感。关键创新在于将奖励建模从直接打分转变为结构化的多维度评价体系，从而更可靠地区分高质量响应之间的细微差异。
其它亮点

作者设计了一套工作流来构建能区分优秀且多样化回答的评分标准，并在实验中验证了该方法显著缓解了奖励过度优化问题，提升了大语言模型后训练的效果。实验利用了离策略生成的高质量样例，并结合人工标注进行评估。代码已开源，地址为 https://github.com/Jun-Kai-Zhang/rubrics.git。未来可深入研究自动构建动态评分标准、跨任务迁移评分结构以及与过程监督的结合。
相关研究

1. Reward Design for LLMs: From Human Feedback to Automated Criteria 2. Aligning Language Models by Learning from Human Feedback: A Survey 3. Process-Based Reward Modeling for Fine-Grained Control of LLM Generation 4. Red-Teaming Language Models with Adversarial Prompts in High-Stakes Scenarios 5. Scalable Oversight via Decomposed Reward Modeling

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问