- 简介大型语言模型正越来越多地在代码、数学等可验证领域中,通过强化学习进行后训练。然而,当前基于可验证奖励的强化学习(RLVR)方法仅从每次尝试所获得的一个标量结果奖励中进行学习,从而导致严重的信用分配瓶颈。事实上,许多可验证环境实际上能提供丰富的文本反馈——例如运行时错误信息或评测系统给出的评判意见——这些反馈能够解释某次尝试为何失败。我们将这一设定形式化为“带丰富反馈的强化学习”,并提出“自蒸馏策略优化”(SDPO)方法:该方法无需任何外部教师模型或显式的奖励模型,即可将分词后的文本反馈转化为密集型的学习信号。SDPO 将当前模型在给定反馈条件下的输出视为一种“自教师”,并将该模型依据反馈所生成的下一词预测结果,蒸馏回原始策略中。借此,SDPO 充分利用了模型在上下文中对自身错误进行事后识别与反思的能力。在 LiveCodeBench v6 数据集上的科学推理、工具调用及竞赛编程任务中,SDPO 在样本效率和最终准确率两方面均显著优于多个强基线 RLVR 方法。值得注意的是,即便在仅返回标量反馈的标准 RLVR 环境中,SDPO 仍能通过将成功轨迹隐式地用作失败尝试的反馈来源,从而超越现有基线方法。最后,在测试阶段对单个问题单独应用 SDPO,可显著加速困难二值奖励任务中的答案发现过程:其达到与“k 中最优采样”(best-of-k sampling)或多轮对话同等发现概率所需的尝试次数,仅为后者的三分之一。
-
- 图表
- 解决问题现有基于强化学习的可验证领域(如代码、数学)后训练方法仅利用标量奖励(如通过/失败),导致严重的信用分配瓶颈;而实际环境中存在丰富的文本反馈(如运行时错误、评测详情),但当前RLVR方法未能有效利用这类结构化反馈信息。这是一个新问题——首次系统性地将‘富文本反馈’建模为可学习信号,而非降维为标量奖励。
- 关键思路提出Self-Distillation Policy Optimization (SDPO):不依赖外部教师模型或显式奖励模型,而是将当前策略模型以反馈文本为条件进行自回归推理,将其自身在反馈上下文下生成的修正性token预测(即‘反馈感知的下一个token分布’)作为监督信号,通过知识蒸馏方式反向更新原始策略。核心新意在于‘用模型自身作为反馈驱动的自教师’,实现无监督、在线、细粒度的信用分配。
- 其它亮点在LiveCodeBench v6(覆盖科学推理、工具调用、竞赛编程)上显著提升样本效率与最终准确率;即使在仅有标量反馈的标准RLVR环境中,SDPO仍能通过成功轨迹隐式重构失败轨迹的反馈,实现性能超越;支持测试时单问题级在线SDPO,以1/3尝试次数达到best-of-k或多次对话的发现概率;论文未提及其代码是否开源,但实验设计严谨(控制变量对比PPO、GRPO、Rejection Sampling等强基线),所有任务均基于真实可执行评测反馈;值得深入的方向包括:反馈文本的最优tokenization策略、SDPO与形式化验证器的联合优化、以及向非可验证领域(如事实一致性)迁移的可行性。
- Rejection Sampling with Verifiers (2023); GRPO: Generalized Reinforcement Learning from Process-Oriented Feedback (ICML 2024); PPO with Code Execution Feedback (NeurIPS 2023); Self-Refine: Iterative Refinement with Self-Feedback (ACL 2023); Toolformer: Language Models Can Teach Themselves to Use Tools (2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流