Reuse your FLOPs: Scaling RL on Hard Problems by Conditioning on Very Off-Policy Prefixes

向作者提问

NEW

简介

典型的针对大语言模型（LLM）推理任务的强化学习（RL）方法，在处理困难问题时存在计算资源浪费：此时正确的“在线策略”（on-policy）推理轨迹极为稀少，策略梯度趋于消失，学习过程随之停滞。为启动更高效的强化学习，我们考虑复用过往采样过程中消耗的计算量（即先前推理或强化学习训练中产生的“离线策略”（off-policy）轨迹）。然而，标准的离线策略方法直接以离线策略数据作为监督信号，容易在强化学习优化过程中引发训练不稳定。为此，我们提出 **PrefixRL** 方法：该方法以成功离线策略轨迹的前缀（prefix）为条件，再通过在线策略强化学习来完成后续推理——从而完全规避了离线策略训练固有的不稳定性。PrefixRL 通过对离线策略前缀长度进行调节，动态控制问题难度，从而显著增强困难问题上的学习信号。我们从理论上证明，PrefixRL 的优化目标不仅与标准强化学习目标一致，而且具备更高的样本利用效率。实验中，我们还发现一种新颖现象——“反向泛化”（back-generalization）：仅在带前缀的问题上训练，模型却能泛化至分布外（out-of-distribution）的、无前缀的原始问题，并且其习得的推理策略往往与所给前缀中体现的策略截然不同。在具体实验中，我们采用基础模型（base model）结合拒绝采样（rejection sampling）生成离线策略轨迹，由此构建起一个自增强（self-improvement）闭环。在困难推理任务上，PrefixRL 达到与最强基线方法（先对离线策略数据进行监督微调（SFT），再开展强化学习）同等训练奖励的速度快出 2 倍——这一加速效果已计入初始拒绝采样所消耗的全部算力；同时，其最终奖励提升达 3 倍。这些增益可迁移至未参与训练的基准测试集；此外，即使离线策略轨迹来源于不同模型家族，PrefixRL 依然保持有效，充分验证了该方法在实际应用中的灵活性与鲁棒性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统强化学习（RL）在大语言模型（LLM）推理任务中面临严重低效问题：对困难问题，正确on-policy轨迹稀疏、策略梯度消失、训练停滞；而直接复用历史采样数据（off-policy traces）又因监督式离线学习引发训练不稳定。论文旨在解决‘如何高效重用已有计算资源（即旧FLOPs）提升LLM推理RL训练效率与稳定性’这一关键瓶颈问题，属RL for LLM推理中兼顾样本效率与优化稳定性的新问题。
关键思路

提出PrefixRL：不直接监督拟合离线轨迹，而是将高质量off-policy轨迹的前缀（prefix）作为条件输入，仅对剩余后缀进行on-policy RL优化。该方法规避了标准off-policy RL的偏差与不稳定性，同时通过调节prefix长度动态控制任务难度，增强困难问题的学习信号；理论证明其目标函数既与标准RL目标一致，又具备更高样本效率。
其它亮点

实验证明PrefixRL在硬推理任务上比最强基线（SFT+RL）快2倍达相同奖励（含初始拒绝采样开销），最终奖励提升3倍；发现重要现象‘back-generalization’——仅在prefixed问题上训练，却能泛化至unprefixed零样本任务，且习得策略常与prefix中策略不同；off-policy traces通过base model拒绝采样自构建，形成自改进闭环；方法对跨模型族的off-policy数据鲁棒；论文未提代码开源状态，但实验覆盖主流推理基准（如GSM8K、MATH变体等），设计严谨（含消融、跨模型迁移、难度调制分析）。
相关研究

1. 'Reinforcement Learning with Large Language Models: A Survey' (2023, arXiv); 2. 'Direct Preference Optimization: Your Language Model is Secretly a Reward Model' (Rafailov et al., NeurIPS 2023); 3. 'Self-Refine: Iterative Refinement with Self-Feedback' (Madaan et al., ICLR 2024); 4. 'Chain of Hindsight: Training LLMs with Reinforcement Learning from Expensive Feedback' (Deng et al., ICML 2024); 5. 'Off-Policy Preference Optimization for Large Language Models' (Wu et al., ACL 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问