- 简介强化学习(RL)已成为训练大型语言模型(LLMs)的主要范式,特别是在推理任务方面。对于大型语言模型的有效强化学习需要大规模的并行化,并对高效的训练系统提出了迫切需求。目前大多数针对大型语言模型的大规模强化学习系统都是同步的,在批量设置中交替进行生成和训练,其中每个训练批次中的轨迹(rollouts)由相同的模型生成。这种方法虽然可以稳定强化学习的训练过程,但会导致严重的系统级效率低下:生成过程必须等待批次中最长输出完成才能进行模型更新,从而导致 GPU 的利用率不足。 我们提出了 AReaL,这是一个完全异步的强化学习系统,能够彻底将生成过程与训练过程分离。在 AReaL 中,轨迹生成工作节点(rollout workers)可以持续生成新的输出而无需等待,而训练工作节点(training workers)则在收集到一批数据后立即更新模型。此外,AReaL 还包含了一系列系统级优化措施,显著提高了 GPU 的利用率。为了稳定强化学习的训练,AReaL 通过平衡轨迹生成和训练工作节点的工作负载来控制数据陈旧性(staleness),并且采用了改进的、考虑数据陈旧性的 PPO 变体,以更好地处理过时的训练样本。 在数学和代码推理基准上的广泛实验表明,与使用相同数量 GPU 的同步系统相比,AReaL 能够实现高达 2.77 倍的训练加速,同时达到或超过最终性能表现。AReaL 的代码已开源,可从以下链接获取:https://github.com/inclusionAI/AReaL/。
- 图表
- 解决问题该论文试图解决强化学习(RL)在大规模语言模型(LLMs)训练中的系统效率问题。传统的同步RL方法因等待最长输出完成而导致GPU利用率低下,这成为一个亟需优化的关键瓶颈。
- 关键思路AReaL提出了一种完全异步的RL系统,通过将生成和训练解耦来提高效率。具体来说,rollout工作节点持续生成数据而无需等待,训练工作节点则在收集到足够数据后立即更新模型。此外,AReaL引入了工作负载平衡机制以及一种 staleness-enhanced PPO 变体以应对数据陈旧性问题,从而在保持训练稳定性的同时显著提升GPU利用率。
- 其它亮点实验结果表明,AReaL能够在数学和代码推理基准测试中实现最高2.77倍的训练加速,同时保持或提升最终性能。论文还开源了代码(https://github.com/inclusionAI/AReaL),为后续研究提供了基础。未来可以进一步探索更复杂的异步架构和更大规模的模型应用。
- 近期相关研究包括:1)《Fine-Tuning Language Models from Human Preferences》探讨了基于人类反馈的RL调优;2)《Deep Reinforcement Learning at the Edge of the Statistical Precipice》讨论了RL训练中的统计挑战;3)《Optimizing Large-Scale RL with Distributed Systems》提出了分布式RL系统的优化方法。这些研究共同推动了大规模RL在语言模型中的应用与发展。
沙发等你来抢
去评论
评论
沙发等你来抢