Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes

2026年01月26日
  • 简介
    典型的针对大语言模型(LLM)推理任务的强化学习(RL)方法,在处理困难问题时存在计算资源浪费:此时正确的“在线策略”(on-policy)推理轨迹极为稀少,策略梯度趋于消失,学习过程随之停滞。为启动更高效的强化学习,我们考虑复用过往采样过程中消耗的计算量(即先前推理或强化学习训练中产生的“离线策略”(off-policy)轨迹)。然而,标准的离线策略方法直接以离线策略数据作为监督信号,容易在强化学习优化过程中引发训练不稳定。为此,我们提出 **PrefixRL** 方法:该方法以成功离线策略轨迹的前缀(prefix)为条件,再通过在线策略强化学习来完成后续推理——从而完全规避了离线策略训练固有的不稳定性。PrefixRL 通过对离线策略前缀长度进行调节,动态控制问题难度,从而显著增强困难问题上的学习信号。我们从理论上证明,PrefixRL 的优化目标不仅与标准强化学习目标一致,而且具备更高的样本利用效率。实验中,我们还发现一种新颖现象——“反向泛化”(back-generalization):仅在带前缀的问题上训练,模型却能泛化至分布外(out-of-distribution)的、无前缀的原始问题,并且其习得的推理策略往往与所给前缀中体现的策略截然不同。在具体实验中,我们采用基础模型(base model)结合拒绝采样(rejection sampling)生成离线策略轨迹,由此构建起一个自增强(self-improvement)闭环。在困难推理任务上,PrefixRL 达到与最强基线方法(先对离线策略数据进行监督微调(SFT),再开展强化学习)同等训练奖励的速度快出 2 倍——这一加速效果已计入初始拒绝采样所消耗的全部算力;同时,其最终奖励提升达 3 倍。这些增益可迁移至未参与训练的基准测试集;此外,即使离线策略轨迹来源于不同模型家族,PrefixRL 依然保持有效,充分验证了该方法在实际应用中的灵活性与鲁棒性。
  • 作者讲解
  • 图表
  • 解决问题
    传统强化学习(RL)在大语言模型(LLM)推理任务中面临严重低效问题:对困难问题,正确on-policy轨迹稀疏、策略梯度消失、训练停滞;而直接复用历史采样数据(off-policy traces)又因监督式离线学习引发训练不稳定。论文旨在解决‘如何高效重用已有计算资源(即旧FLOPs)提升LLM推理RL训练效率与稳定性’这一关键瓶颈问题,属RL for LLM推理中兼顾样本效率与优化稳定性的新问题。
  • 关键思路
    提出PrefixRL:不直接监督拟合离线轨迹,而是将高质量off-policy轨迹的前缀(prefix)作为条件输入,仅对剩余后缀进行on-policy RL优化。该方法规避了标准off-policy RL的偏差与不稳定性,同时通过调节prefix长度动态控制任务难度,增强困难问题的学习信号;理论证明其目标函数既与标准RL目标一致,又具备更高样本效率。
  • 其它亮点
    实验证明PrefixRL在硬推理任务上比最强基线(SFT+RL)快2倍达相同奖励(含初始拒绝采样开销),最终奖励提升3倍;发现重要现象‘back-generalization’——仅在prefixed问题上训练,却能泛化至unprefixed零样本任务,且习得策略常与prefix中策略不同;off-policy traces通过base model拒绝采样自构建,形成自改进闭环;方法对跨模型族的off-policy数据鲁棒;论文未提代码开源状态,但实验覆盖主流推理基准(如GSM8K、MATH变体等),设计严谨(含消融、跨模型迁移、难度调制分析)。
  • 相关研究
    1. 'Reinforcement Learning with Large Language Models: A Survey' (2023, arXiv); 2. 'Direct Preference Optimization: Your Language Model is Secretly a Reward Model' (Rafailov et al., NeurIPS 2023); 3. 'Self-Refine: Iterative Refinement with Self-Feedback' (Madaan et al., ICLR 2024); 4. 'Chain of Hindsight: Training LLMs with Reinforcement Learning from Expensive Feedback' (Deng et al., ICML 2024); 5. 'Off-Policy Preference Optimization for Large Language Models' (Wu et al., ACL 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问