Laminar: A Scalable Asynchronous RL Post-Training Framework

向作者提问

NEW

简介

强化学习（RL）在大语言模型（LLMs）上的训后微调正逐步扩展到大规模集群，并进行长时间运行，以提升模型的推理能力。然而，现有RL框架的可扩展性受限，原因在于RL轨迹生成过程中存在极端的长尾偏斜现象，导致GPU利用率严重不足。当前的异步RL系统试图缓解这一问题，但其依赖于actor与所有rollout之间的全局权重同步，从而形成僵化的模型更新节奏。这种全局同步机制难以适应RL训练中高度偏斜且动态变化的轨迹生成延迟分布，严重影响了训练效率。我们的核心洞察是：要实现高效扩展，必须打破这种同步锁步机制，转而采用基于单个轨迹的异步方式，独立地生成和消费每一条轨迹。为此，我们提出了Laminar——一种建立在完全解耦架构之上的可扩展且鲁棒的RL训后微调系统。首先，我们用一组中继工作节点作为分布式参数服务，取代原有的全局更新机制，从而实现异步且细粒度的权重同步，使得各个rollout可以随时拉取最新权重，而不会阻塞actor的训练循环。其次，我们设计了一种动态重打包机制，将长尾轨迹集中到少数专用的rollout进程中处理，以最大化轨迹生成吞吐量。这种完全解耦的设计还能有效隔离故障，确保长时间运行任务的稳定性。我们在一个1024 GPU的集群上进行了评估，结果表明，相比当前最先进的系统，Laminar最高可实现5.48倍的训练吞吐量提升，同时缩短了模型的收敛时间。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有的强化学习（RL）框架在大规模集群上进行大语言模型（LLM）后训练时，由于RL轨迹生成存在极端长尾延迟分布，导致严重的GPU利用率低下。当前异步系统依赖于actor与所有rollout之间的全局权重同步，造成刚性的模型更新节奏，无法适应动态变化的延迟分布，限制了训练的可扩展性和效率。这是一个随着LLM推理能力训练需求增长而日益突出的新挑战。
关键思路

提出轨迹级异步性（trajectory-level asynchrony），打破传统锁步同步机制。Laminar通过引入中继工作节点（relay workers）作为分布式参数服务，实现细粒度、异步的权重更新，使各个rollout可独立拉取最新参数而不阻塞actor；同时设计动态重打包机制，将长尾轨迹集中到专用rollout中处理，提升整体吞吐。该思路首次在RL训练系统中实现完全解耦架构，显著提升了系统的弹性与效率。
其它亮点

在1024-GPU集群上的实验表明，Laminar相比现有最先进系统最高实现5.48倍的训练吞吐提升，并缩短模型收敛时间。系统具备高容错性，能隔离故障保障长时间运行稳定。实验设计覆盖真实LLM推理任务场景，验证了系统在高负载和长尾延迟下的鲁棒性。论文未明确提及是否开源代码，但其架构设计对工业级RL训练系统具有重要参考价值，未来可深入研究其在不同模型规模和任务类型下的泛化能力。
相关研究

1. PaLM-E: An Embodied Multimodal Language Model 2. Scaling Reinforcement Learning for Long-Horizon Tasks 3. DeepMind's Gopher and Chinchilla training systems 4. ZeRO-Offload and DeepSpeed: System Optimizations for Large-Scale Model Training 5. FlexFlow: A Framework for Performance-Aware Neural Network Partitioning

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问