Reinforcement Learning via Self-Distillation

向作者提问

NEW

简介

大型语言模型正越来越多地在代码、数学等可验证领域中，通过强化学习进行后训练。然而，当前基于可验证奖励的强化学习（RLVR）方法仅从每次尝试所获得的一个标量结果奖励中进行学习，从而导致严重的信用分配瓶颈。事实上，许多可验证环境实际上能提供丰富的文本反馈——例如运行时错误信息或评测系统给出的评判意见——这些反馈能够解释某次尝试为何失败。我们将这一设定形式化为“带丰富反馈的强化学习”，并提出“自蒸馏策略优化”（SDPO）方法：该方法无需任何外部教师模型或显式的奖励模型，即可将分词后的文本反馈转化为密集型的学习信号。SDPO 将当前模型在给定反馈条件下的输出视为一种“自教师”，并将该模型依据反馈所生成的下一词预测结果，蒸馏回原始策略中。借此，SDPO 充分利用了模型在上下文中对自身错误进行事后识别与反思的能力。在 LiveCodeBench v6 数据集上的科学推理、工具调用及竞赛编程任务中，SDPO 在样本效率和最终准确率两方面均显著优于多个强基线 RLVR 方法。值得注意的是，即便在仅返回标量反馈的标准 RLVR 环境中，SDPO 仍能通过将成功轨迹隐式地用作失败尝试的反馈来源，从而超越现有基线方法。最后，在测试阶段对单个问题单独应用 SDPO，可显著加速困难二值奖励任务中的答案发现过程：其达到与“k 中最优采样”（best-of-k sampling）或多轮对话同等发现概率所需的尝试次数，仅为后者的三分之一。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有基于强化学习的可验证领域（如代码、数学）后训练方法仅利用标量奖励（如通过/失败），导致严重的信用分配瓶颈；而实际环境中存在丰富的文本反馈（如运行时错误、评测详情），但当前RLVR方法未能有效利用这类结构化反馈信息。这是一个新问题——首次系统性地将‘富文本反馈’建模为可学习信号，而非降维为标量奖励。
关键思路

提出Self-Distillation Policy Optimization (SDPO)：不依赖外部教师模型或显式奖励模型，而是将当前策略模型以反馈文本为条件进行自回归推理，将其自身在反馈上下文下生成的修正性token预测（即‘反馈感知的下一个token分布’）作为监督信号，通过知识蒸馏方式反向更新原始策略。核心新意在于‘用模型自身作为反馈驱动的自教师’，实现无监督、在线、细粒度的信用分配。
其它亮点

在LiveCodeBench v6（覆盖科学推理、工具调用、竞赛编程）上显著提升样本效率与最终准确率；即使在仅有标量反馈的标准RLVR环境中，SDPO仍能通过成功轨迹隐式重构失败轨迹的反馈，实现性能超越；支持测试时单问题级在线SDPO，以1/3尝试次数达到best-of-k或多次对话的发现概率；论文未提及其代码是否开源，但实验设计严谨（控制变量对比PPO、GRPO、Rejection Sampling等强基线），所有任务均基于真实可执行评测反馈；值得深入的方向包括：反馈文本的最优tokenization策略、SDPO与形式化验证器的联合优化、以及向非可验证领域（如事实一致性）迁移的可行性。
相关研究

Rejection Sampling with Verifiers (2023); GRPO: Generalized Reinforcement Learning from Process-Oriented Feedback (ICML 2024); PPO with Code Execution Feedback (NeurIPS 2023); Self-Refine: Iterative Refinement with Self-Feedback (ACL 2023); Toolformer: Language Models Can Teach Themselves to Use Tools (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问