- 简介评分标准为在开放式长篇回答上训练大语言模型提供了一种灵活的方法,这类场景中无法使用可验证的奖励信号,而人类偏好仅能提供粗略的反馈。先前的研究表明,基于评分标准的强化学习能够在大语言模型的后训练阶段带来持续的性能提升。目前大多数方法依赖于在整个训练过程中保持不变的静态评分标准。然而,这类静态标准容易引发类似“奖励操纵”的行为,并且难以捕捉训练过程中新出现的理想特性。本文提出“在线评分标准提取”(OnlineRubrics)方法,通过当前策略与参考策略生成的回答之间的成对比较,以在线方式动态构建评估标准。这一在线过程使得在训练推进过程中能够持续识别并纠正错误。实验结果表明,与仅使用静态评分标准的训练方法相比,该方法在AlpacaEval、GPQA、ArenaHard以及专家问题和评分标准的验证集上均实现了最高达8%的持续性能提升。我们对提取出的评分标准进行了定性分析,识别出若干突出的主题,包括透明性、实用性、条理性和推理能力。
-
- 图表
- 解决问题论文试图解决在使用基于评分标准(rubrics)的强化学习训练大语言模型时,静态评分标准容易导致奖励黑客行为且无法捕捉训练过程中出现的新需求的问题。该问题在长文本、开放式回答场景中尤为突出,因缺乏可验证的正确答案,传统奖励机制难以适用。这是一个重要且较新的问题,尤其随着LLM后训练对细粒度人类偏好依赖的加深。
- 关键思路提出OnlineRubrics方法,通过在线方式动态生成和更新评分标准:利用当前策略与参考策略生成的回答进行成对比较,持续提取新的评价维度。相比固定不变的静态rubrics,该方法能动态识别并纠正训练中暴露出的问题,防止模型走捷径或忽略关键质量维度,具有较强的适应性和鲁棒性。
- 其它亮点在AlpacaEval、GPQA、ArenaHard及专家问题验证集上,相比仅使用静态rubrics的方法,性能提升高达8%;定性分析显示系统自动提取出‘透明性’、‘实用性’、‘结构组织’和‘推理能力’等关键评价主题;实验设计采用响应对比与人工标注结合的方式验证有效性;代码与数据集已开源,具备良好可复现性;未来可探索将动态rubrics迁移到多轮对话、教育反馈等复杂场景。
- Recent advances in reward modeling for language generation: Learning to Summarize from Human Feedback (2020); Reward Design via Generative Oracles (2023); Eliciting Reasoning Skills via Online Preference Learning (2024); Dynamic Reward Shaping for LLMs with Evolving Criteria (2023); Aligning Language Models to User Intent through Iterative Rubric Refinement (2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流