The Art of Scaling Reinforcement Learning Compute for LLMs

向作者提问

NEW

简介

强化学习（RL）已成为训练大语言模型（LLMs）的核心方法，但该领域尚缺乏与预训练阶段相媲美的可预测性扩展方法论。尽管计算资源预算迅速增长，目前仍缺乏系统性的理解来评估强化学习算法在扩展计算规模时的改进效果。本文开展了首次大规模系统性研究，总计消耗超过40万GPU小时，建立了一个系统分析和预测大语言模型中强化学习扩展规律的理论框架。我们拟合了强化学习训练中的S型（sigmoidal）计算-性能曲线，并对一系列常见的设计选择进行了消融实验，以分析它们对渐近性能和计算效率的影响。我们观察到：（1）并非所有训练方案都能达到相似的最终性能；（2）诸如损失函数聚合方式、归一化方法、课程学习策略以及离线策略算法等细节，主要影响的是计算效率，而不会显著改变性能的极限值（即渐近线）；（3）稳定且可扩展的训练方案遵循可预测的扩展轨迹，因此可以从较小规模的实验中推断出大规模运行的表现。综合这些发现，我们提出了一种最佳实践方案——ScaleRL，并通过一次扩展至10万GPU小时的强化学习训练实验，成功验证了该方案在性能扩展和预测上的有效性。本研究不仅为分析强化学习的扩展规律提供了科学框架，也提出了一套实用的训练方案，使强化学习的训练过程在可预测性方面更接近预训练阶段已实现的水平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大语言模型（LLM）在强化学习（RL）训练过程中缺乏可预测的计算扩展方法的问题。尽管预训练阶段已有成熟的扩展规律（如缩放定律），但在RL微调阶段，如何有效评估算法改进对计算扩展的影响仍缺乏系统性理解。这是一个新兴且重要的问题，随着RL在LLM训练中的广泛应用，亟需建立类似预训练的科学、可预测的扩展框架。
关键思路

提出首个大规模系统性研究框架，通过拟合S型（sigmoidal）计算-性能曲线来建模RL训练的扩展行为。关键思路是：将RL训练的性能随计算量增长的轨迹参数化为S型曲线，从而实现从小规模实验外推大规模表现。相比以往依赖试错的方法，该工作首次实现了对RL训练性能的定量预测，使算法设计和计算分配更具原则性和可复现性。
其它亮点

研究基于超过40万GPU小时的实验，覆盖多种设计选择（如损失聚合、归一化、课程学习、策略更新方式等）的消融分析；发现不同方法主要影响计算效率而非最终性能上限；验证了稳定算法遵循可预测的扩展路径；提出了名为ScaleRL的最佳实践方案，并在一个10万GPU小时的单次运行中成功预测验证性能；代码与数据有望推动RL扩展研究的标准化，未来可在更多模型架构和任务上进一步验证和推广。
相关研究

相关研究包括Kaplan et al. (2020) 的《Scaling Laws for Neural Language Models》建立了预训练的缩放定律；Henighan et al. (2023) 在Anthropic的研究中探讨了模型行为随规模的变化；同时近期关于PPO在LLM中的稳定性问题（如Zhang et al., 2023）以及离策略RL方法（如RKL, DPO）的工作也为本研究提供了背景。此外，Google DeepMind在《Training Compute-Optimal Large Language Models》中提出的Chinchilla模型也强调了计算最优分配的重要性，与本文关注的RL计算效率相呼应。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问