- 简介强化学习(RL)在提升大语言模型(LLM)推理能力方面正发挥着越来越重要的作用,但策略优化的稳定性与性能表现仍面临挑战。Token级别的重要性比率通常具有较高方差,这一问题在专家混合模型(Mixture-of-Experts)中尤为突出,导致更新过程不稳定。现有的基于分组的策略优化方法(如GSPO和GRPO)通过硬截断(hard clipping)缓解该问题,但难以同时兼顾训练稳定性和有效学习。我们提出软性自适应策略优化(Soft Adaptive Policy Optimization, SAPO),以一种平滑、温度可控的门控机制替代硬截断,在自适应抑制离策略更新的同时保留有效的学习信号。与GSPO和GRPO相比,SAPO兼具序列一致性与Token级自适应性。与GSPO类似,SAPO保持了序列层面的一致性,但其软性门控构建了一个连续的信任区域,避免了GSPO所依赖的脆弱的硬截断区间。当某个序列中仅包含少数高度离策略的Token时,GSPO会抑制整个序列的所有梯度更新,而SAPO则仅选择性地降低这些异常Token的权重,保留接近策略内Token的学习信号,从而提升样本利用效率。相较于GRPO,SAPO用平滑且受温度控制的缩放机制取代了Token级别的硬截断,实现了更丰富且更稳定的更新。在数学推理基准任务上的实验结果表明,在相近训练预算下,SAPO展现出更优的训练稳定性以及更高的Pass@1性能。此外,我们使用SAPO训练了Qwen3-VL系列模型,验证了SAPO在不同任务和不同模型规模下均能带来一致的性能提升。总体而言,SAPO为大语言模型的强化学习训练提供了一种更可靠、可扩展且高效的优化策略。
-
- 图表
- 解决问题论文旨在解决大语言模型(LLMs)在强化学习(RL)训练过程中因token级重要性权重的高方差导致的策略优化不稳定问题,尤其是在Mixture-of-Experts(MoE)模型中更为严重。现有方法如GSPO和GRPO采用硬裁剪(hard clipping)来缓解该问题,但会抑制有效学习信号,影响样本效率和训练稳定性。这是一个当前RL与LLM结合中的关键挑战,虽非全新问题,但在推理增强场景下日益重要。
- 关键思路提出Soft Adaptive Policy Optimization(SAPO),用一种平滑、温度可控的软门控机制替代传统的硬裁剪,自适应地衰减离策略更新,同时保留有用的学习信号。SAPO兼具序列一致性与token级自适应性:在序列层面保持整体梯度一致性(类似GSPO),在token层面实现细粒度调控,避免GSPO对整个序列梯度的全压制造成的信息损失,并优于GRPO的硬阈值机制。
- 其它亮点实验在数学推理基准上验证了SAPO相比GSPO和GRPO具有更优的训练稳定性和更高的Pass@1性能;成功应用于Qwen3-VL系列模型训练,展现出跨任务、跨模型规模的一致增益;方法设计无需额外监督信号,兼容现有RL框架;代码虽未明确提及开源,但基于其在通义千问系列中的应用,未来有望开放;值得深入研究其在多模态、长序列推理及更广泛RLHF场景中的泛化能力。
- 1. Group-based Policy Optimization for Language Model Finetuning (GSPO) 2. Token-level vs Sequence-level: Revisiting Policy Optimization in RLHF (GRPO) 3. Reinforcement Learning from Human Feedback (RLHF): A Survey 4. Mixture-of-Agents: Exploring Expertise via Reasoning Paths 5. Stable Reinforcement Learning with Learned Value Functions for LLMs
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流