Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training

向作者提问

NEW

简介

强化学习 (RL) 是大型语言模型 (LLM) 后训练中的关键组成部分。然而，当前用于后训练的策略优化算法本质上与经验回放缓冲区的使用不兼容，而这些缓冲区可以通过分布式离线策略代理（actors）以可扩展的方式填充，从而在计算资源增加时增强探索能力。我们提出通过带有异步性的轨迹平衡（TBA，Trajectory Balance with Asynchrony）高效地获取回放缓冲区带来的优势，这是一种高度可扩展的LLM强化学习系统。与现有方法不同，TBA将更多计算资源分配给搜索过程，持续生成离线数据以填充中央回放缓冲区。一个训练节点同时从该缓冲区中根据奖励或时间新鲜度采样数据，并利用轨迹平衡（TB）更新策略，其中轨迹平衡是一种为GFlowNets引入的、追求多样性的强化学习目标。TBA具有三大优势：(1) 训练与搜索解耦，使训练的实际时间加快4倍以上；(2) 通过大规模离线采样提升多样性；(3) 在稀疏奖励场景下实现可扩展搜索。在数学推理、偏好调优以及自动化红队测试（多样化且具有代表性的后训练任务）等任务上，TBA相比强大的基线方法展现出速度和性能的提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决强化学习中经验回放与策略优化不兼容的问题，特别是在大规模语言模型（LLM）的后训练阶段。这是一个新问题，因为传统的RL算法无法直接应用于LLM的大规模分布式训练场景。
关键思路

论文提出了一种名为Trajectory Balance with Asynchrony (TBA) 的方法，通过结合离线采样和中心化经验回放缓冲区来提高计算效率和探索多样性。这种方法允许训练节点从缓冲区中按奖励或时间顺序采样，并使用Trajectory Balance目标函数更新策略。相比现有方法，TBA实现了训练和搜索的解耦，从而显著加速了训练时间。
其它亮点

1. TBA在数学推理、偏好调优和自动化红队测试等任务上展示了性能和速度的提升；2. 方法支持大规模稀疏奖励环境下的高效探索；3. 实验设计包括多种代表性任务，并与强基线进行了对比；4. 论文未明确提及代码开源情况，但其设计理念为未来研究提供了方向，例如如何进一步优化离线数据生成和策略更新机制。
相关研究

近期相关研究包括：1. 'GFlowNets for Sequence Generation' 提出了用于序列生成的GFlowNets框架；2. 'Distributed Reinforcement Learning for Large-Scale Language Models' 探讨了分布式RL在LLM中的应用；3. 'Off-Policy Actor-Critic Methods for Multi-Agent RL' 研究了多智能体场景下的离线策略方法；4. 'Scalable Experience Replay for Deep Reinforcement Learning' 深入讨论了经验回放在深度RL中的扩展性问题。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问