Reinforcement Learning with Rubric Anchors

2025年08月18日
  • 简介
    可验证奖励强化学习(RLVR)已成为提升大语言模型(LLMs)的一种强大范式,OpenAI 的 o 系列模型的成功便是一个例证。在 RLVR 中,奖励来自于可验证的信号,例如在代码生成中通过单元测试,或在数学推理中匹配正确答案。尽管这种方法有效,但其要求极大地将 RLVR 限制在具有可自动验证结果的领域。为了解决这一限制,我们通过引入基于评分标准(rubric-based)的奖励,将 RLVR 范式扩展到开放性任务。这些精心设计的评分标准作为结构化、模型可解释的标准,用于对主观输出进行自动评分。据我们所知,我们构建了迄今为止最大的评分标准奖励系统,其中包含来自人类、大语言模型或人类与模型协作的超过 10,000 条评分标准。实现基于评分标准的强化学习充满挑战;我们通过一个清晰的框架解决了这些问题,并开源发布了 Qwen-30B-A3B 模型,取得了显著提升:1)仅使用 5,000 多个样本,我们的系统在开放性任务基准测试中提升了 +5.2%(特别是在人文学科方面),超过了拥有 6710 亿参数的 DeepSeek-V3 模型 +2.4%,同时保留了模型的通用性和推理能力。2)我们的方法提供了细粒度的风格控制,利用评分标准作为锚点,减轻“AI 腔调”,生成更接近人类、更具表现力的回复。我们分享了在评分标准构建、数据选择和训练过程中的关键经验,并讨论了当前的局限性以及未来的发布计划。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决强化学习在需要主观评估的开放性任务中难以应用的问题。目前,强化学习主要依赖可验证的奖励信号(如代码生成中的单元测试通过率或数学推理中的答案匹配),这限制了其在没有明确正确答案的任务中的应用。
  • 关键思路
    论文提出了一种基于评分标准(rubric-based)的强化学习方法,通过构建大规模的评分标准系统,使模型能够根据结构化的、模型可解释的标准自动评分,从而在没有明确答案的任务中实现强化学习。
  • 其它亮点
    1. 构建了迄今为止最大的评分标准奖励系统,包含超过10,000条由人类、LLM或人机协作设计的评分标准。 2. 提出了Qwen-30B-A3B模型,在仅使用5K+样本的情况下,在开放性任务基准测试中提升了+5.2%,在人文学科领域表现优于671B参数的DeepSeek-V3模型。 3. 实现了对生成文本风格的细粒度控制,通过评分标准作为锚点,减少“AI式”语气,使输出更接近人类风格。 4. 分享了评分标准构建、数据选择和训练过程中的关键经验,并讨论了当前方法的局限性和未来发展方向。 5. 开源了相关模型和框架,推动后续研究。
  • 相关研究
    1. OpenAI 的 o-series 模型,通过可验证的奖励信号提升LLM性能。 2. DeepSeek-V3 在大规模语言模型上的进展,特别是在推理和生成任务中的表现。 3. 近期关于基于人类反馈的强化学习(RLHF)的研究,如Anthropic的 Constitutional AI。 4. 利用结构化反馈进行模型训练的相关工作,例如基于规则和评分标准的反馈机制。 5. 关于如何提升LLM生成内容多样性和人类风格相似度的研究,如风格迁移和可控文本生成技术。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问