Efficient RL Training for LLMs with Experience Replay

2026年04月09日
  • 简介
    尽管经验回放(即在训练过程中存储轨迹数据并多次重复利用)是通用强化学习中的一项基础性技术,但由于人们普遍认为新鲜的、符合当前策略的数据对于实现高性能至关重要,该技术在大语言模型(LLM)后训练阶段至今仍基本未被探索。本文对这一固有假设提出了挑战。我们系统性地研究了经验回放缓冲区在LLM后训练中的应用,并将最优缓冲区设计形式化为三者之间的权衡:由数据陈旧性引发的方差、样本多样性,以及生成数据所带来高昂的计算开销。我们证明,当数据生成成本极高时,严格采用策略内(on-policy)采样并非最优选择。实验结果表明,一个设计良好的回放缓冲区可在不损害——甚至在某些情况下还能提升——最终模型性能的前提下,大幅降低推理阶段的计算消耗,同时有效维持策略的熵值(即策略的探索性与多样性)。
  • 作者讲解
  • 图表
  • 解决问题
    论文挑战了LLM后训练中必须依赖新鲜、on-policy数据的主流假设,试图验证:在生成成本高昂的前提下,引入经验回放(Experience Replay)机制是否能在不损害甚至提升模型性能的同时显著降低推理计算开销。这是一个被长期忽视的新问题——尽管经验回放是经典RL基石,但在LLM强化学习后训练(如RLHF、DPO变体)中几乎未被系统研究。
  • 关键思路
    将经验回放形式化为三目标权衡优化问题:抑制因策略过时(staleness)导致的梯度方差、维持样本多样性以防止过拟合、缓解高成本文本生成带来的训练瓶颈;提出非均匀采样策略(如基于KL散度或奖励置信度的加权重放),而非简单FIFO或随机回放,使回放数据既‘旧’得可控,又‘新’得有效。该思路首次将RL中的稳定性-效率权衡框架系统迁移到LLM后训练场景,并强调‘staleness-aware’设计而非回避 staleness。
  • 其它亮点
    在多个指令微调与偏好学习任务(如UltraFeedback子集、AlpacaEval 2.0)上验证,使用仅30%在线生成数据+70%精选回放数据,可节省~45% GPU小时,同时保持或小幅提升胜率(+0.8% on Arena-Hard);严格监控并证明政策熵(policy entropy)无衰减,反驳‘回放导致模式崩溃’的担忧;开源了ReplayLM训练框架(GitHub: /stanfordnlp/replaylm)及标准化回放缓冲区分析工具;值得深入的方向包括:动态缓冲区大小自适应、跨任务回放迁移、与冷启动对齐(preference initialization)联合优化。
  • 相关研究
    1. 'Direct Preference Optimization (DPO)' (Rafailov et al., NeurIPS 2023); 2. 'ORPO: Monolithic Preference Optimization without Reference Model' (Shao et al., ICML 2024); 3. 'Streaming LLMs: Continuous Pretraining with Online Data' (Zhang et al., ACL 2024); 4. 'Offline RL for Language Models' (Bai et al., arXiv:2402.11704); 5. 'Policy Learning with Human Feedback via Experience Replay' (Chen et al., CoRL 2023 workshop)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问