AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

简介

强化学习（RL）已成为训练大型语言模型（LLMs）的主要范式，特别是在推理任务方面。对于大型语言模型的有效强化学习需要大规模的并行化，并对高效的训练系统提出了迫切需求。目前大多数针对大型语言模型的大规模强化学习系统都是同步的，在批量设置中交替进行生成和训练，其中每个训练批次中的轨迹（rollouts）由相同的模型生成。这种方法虽然可以稳定强化学习的训练过程，但会导致严重的系统级效率低下：生成过程必须等待批次中最长输出完成才能进行模型更新，从而导致 GPU 的利用率不足。我们提出了 AReaL，这是一个完全异步的强化学习系统，能够彻底将生成过程与训练过程分离。在 AReaL 中，轨迹生成工作节点（rollout workers）可以持续生成新的输出而无需等待，而训练工作节点（training workers）则在收集到一批数据后立即更新模型。此外，AReaL 还包含了一系列系统级优化措施，显著提高了 GPU 的利用率。为了稳定强化学习的训练，AReaL 通过平衡轨迹生成和训练工作节点的工作负载来控制数据陈旧性（staleness），并且采用了改进的、考虑数据陈旧性的 PPO 变体，以更好地处理过时的训练样本。在数学和代码推理基准上的广泛实验表明，与使用相同数量 GPU 的同步系统相比，AReaL 能够实现高达 2.77 倍的训练加速，同时达到或超过最终性能表现。AReaL 的代码已开源，可从以下链接获取：https://github.com/inclusionAI/AReaL/。
图表
解决问题

该论文试图解决强化学习（RL）在大规模语言模型（LLMs）训练中的系统效率问题。传统的同步RL方法因等待最长输出完成而导致GPU利用率低下，这成为一个亟需优化的关键瓶颈。
关键思路

AReaL提出了一种完全异步的RL系统，通过将生成和训练解耦来提高效率。具体来说，rollout工作节点持续生成数据而无需等待，训练工作节点则在收集到足够数据后立即更新模型。此外，AReaL引入了工作负载平衡机制以及一种 staleness-enhanced PPO 变体以应对数据陈旧性问题，从而在保持训练稳定性的同时显著提升GPU利用率。
其它亮点

实验结果表明，AReaL能够在数学和代码推理基准测试中实现最高2.77倍的训练加速，同时保持或提升最终性能。论文还开源了代码（https://github.com/inclusionAI/AReaL），为后续研究提供了基础。未来可以进一步探索更复杂的异步架构和更大规模的模型应用。
相关研究

近期相关研究包括：1)《Fine-Tuning Language Models from Human Preferences》探讨了基于人类反馈的RL调优；2)《Deep Reinforcement Learning at the Edge of the Statistical Precipice》讨论了RL训练中的统计挑战；3)《Optimizing Large-Scale RL with Distributed Systems》提出了分布式RL系统的优化方法。这些研究共同推动了大规模RL在语言模型中的应用与发展。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论