- 简介强化学习(RL)在大语言模型(LLMs)上的训后微调正逐步扩展到大规模集群,并进行长时间运行,以提升模型的推理能力。然而,现有RL框架的可扩展性受限,原因在于RL轨迹生成过程中存在极端的长尾偏斜现象,导致GPU利用率严重不足。当前的异步RL系统试图缓解这一问题,但其依赖于actor与所有rollout之间的全局权重同步,从而形成僵化的模型更新节奏。这种全局同步机制难以适应RL训练中高度偏斜且动态变化的轨迹生成延迟分布,严重影响了训练效率。我们的核心洞察是:要实现高效扩展,必须打破这种同步锁步机制,转而采用基于单个轨迹的异步方式,独立地生成和消费每一条轨迹。为此,我们提出了Laminar——一种建立在完全解耦架构之上的可扩展且鲁棒的RL训后微调系统。首先,我们用一组中继工作节点作为分布式参数服务,取代原有的全局更新机制,从而实现异步且细粒度的权重同步,使得各个rollout可以随时拉取最新权重,而不会阻塞actor的训练循环。其次,我们设计了一种动态重打包机制,将长尾轨迹集中到少数专用的rollout进程中处理,以最大化轨迹生成吞吐量。这种完全解耦的设计还能有效隔离故障,确保长时间运行任务的稳定性。我们在一个1024 GPU的集群上进行了评估,结果表明,相比当前最先进的系统,Laminar最高可实现5.48倍的训练吞吐量提升,同时缩短了模型的收敛时间。
-
- 图表
- 解决问题现有的强化学习(RL)框架在大规模集群上进行大语言模型(LLM)后训练时,由于RL轨迹生成存在极端长尾延迟分布,导致严重的GPU利用率低下。当前异步系统依赖于actor与所有rollout之间的全局权重同步,造成刚性的模型更新节奏,无法适应动态变化的延迟分布,限制了训练的可扩展性和效率。这是一个随着LLM推理能力训练需求增长而日益突出的新挑战。
- 关键思路提出轨迹级异步性(trajectory-level asynchrony),打破传统锁步同步机制。Laminar通过引入中继工作节点(relay workers)作为分布式参数服务,实现细粒度、异步的权重更新,使各个rollout可独立拉取最新参数而不阻塞actor;同时设计动态重打包机制,将长尾轨迹集中到专用rollout中处理,提升整体吞吐。该思路首次在RL训练系统中实现完全解耦架构,显著提升了系统的弹性与效率。
- 其它亮点在1024-GPU集群上的实验表明,Laminar相比现有最先进系统最高实现5.48倍的训练吞吐提升,并缩短模型收敛时间。系统具备高容错性,能隔离故障保障长时间运行稳定。实验设计覆盖真实LLM推理任务场景,验证了系统在高负载和长尾延迟下的鲁棒性。论文未明确提及是否开源代码,但其架构设计对工业级RL训练系统具有重要参考价值,未来可深入研究其在不同模型规模和任务类型下的泛化能力。
- 1. PaLM-E: An Embodied Multimodal Language Model 2. Scaling Reinforcement Learning for Long-Horizon Tasks 3. DeepMind's Gopher and Chinchilla training systems 4. ZeRO-Offload and DeepSpeed: System Optimizations for Large-Scale Model Training 5. FlexFlow: A Framework for Performance-Aware Neural Network Partitioning
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流