- 简介将强化学习应用于大语言模型(LLMs)的推理任务时,常常由于在不同提示(prompt)之间固定且均匀地采样响应而导致梯度估计不稳定,从而形成性能瓶颈。先前的工作如GVM-RAFT通过在预算约束下为每个提示动态分配推理资源,以最小化随机梯度的方差来解决这一问题。受此启发,我们提出了Reinforce-Ada——一种用于大语言模型在线强化学习后训练的自适应采样框架,该框架持续将采样资源重新分配给不确定性最高或最具学习潜力的提示。与传统的两阶段分配方法不同,Reinfece-Ada在在线连续淘汰过程中交替进行估计与采样,并在某个提示收集到足够信号后自动停止对其采样。为了稳定更新过程,我们构建了具有强制奖励多样性的固定规模组,并利用自适应采样阶段聚合的全局统计信息计算优势基线(advantage baselines)。在多个模型架构和推理基准上的实验结果表明,与GRPO相比,Reinforce-Ada能够加速收敛并提升最终性能,尤其是在采用平衡采样变体时表现更优。本研究凸显了具备方差感知能力的自适应数据筛选在实现高效、可靠的大语言模型推理强化学习中的核心作用。代码地址:https://github.com/RLHFlow/Reinforce-Ada。
-
- 图表
- 解决问题论文试图解决在对大型语言模型(LLMs)进行强化学习(RL)用于推理任务时,由于对所有提示(prompts)采用固定且均匀的响应采样而导致的梯度估计不稳定问题。这种低效的采样策略导致训练收敛慢、性能波动大,尤其在推理类任务中更为显著。该问题虽已有初步探索,但尚未系统性地从在线自适应采样的角度加以解决,因此具有较强的实际意义和创新空间。
- 关键思路提出Reinforce-Ada,一种用于LLM在线RL后训练的自适应采样框架。其核心思想是动态、持续地将采样资源分配给不确定性高或学习潜力大的提示,并通过在线连续淘汰机制交错执行估计与采样过程,一旦某个提示获得足够信号即停止对其采样。相比传统两阶段方法,Reinforce-Ada实现了更细粒度、更高效的方差控制。此外,通过构建奖励多样性约束的固定大小组并利用全局统计构建优势基线,进一步稳定了策略更新。
- 其它亮点在多个模型架构和推理基准(如数学推理、逻辑推理等)上验证了Reinforce-Ada的有效性,结果显示其相比GRPO等基线方法显著加快收敛速度并提升最终性能,尤其在平衡采样变体下表现更优。实验设计严谨,覆盖不同模型规模与任务类型;代码已开源(https://github.com/RLHFlow/Reinforce-Ada),增强了可复现性。值得深入的方向包括将该框架扩展至多步推理中的子问题选择,以及结合更复杂的不确定性度量函数。
- 近期相关研究包括:'GVM-RAFT: Variance-Aware Reward Allocation for Efficient RLHF Training'(提出基于梯度方差的预算分配)、'Self-Refinement via Reinforcement Learning Improves Reasoning in Language Models'(探索自我精炼式RL)、'PAL: Program-aided Language Models'(引入程序辅助提升推理能力)、'Direct Preference Optimization: Your Language Model is Secretly a Reward Model'(DPO的兴起推动了高效RLHF发展)。这些工作共同推动了高效、稳定的RL用于语言模型推理的发展。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流