- 简介强化学习(RL)已成为大语言模型(LLM)后训练阶段的关键组成部分。在实际应用中,由于训练与推理之间的不匹配以及策略更新滞后,LLM 的强化学习通常采用离策略(off-policy)方式,因此信任域控制对于实现稳定优化至关重要。当前主流方法(如 PPO 和 GRPO)通过比率裁剪(ratio-clipping)机制来近似实现该控制;然而,在长尾词表场景下,重要性比率往往难以准确反映真实的分布偏移。近期工作(例如 DPPO)通过以基于散度的掩码替代基于比率的裁剪,缓解了这一失配问题,从而将信任域定义为采样词元(token)的绝对概率偏移量。但 DPPO 仍依赖于硬掩码(hard mask):一旦某个词元朝有害方向越出信任域边界,其梯度即被直接丢弃,而非加以修正。为解决这一问题,我们提出**散度正则化策略优化(Divergence Regularized Policy Optimization, DRPO)**,该方法以一种平滑的、优势函数加权的二次正则项取代硬掩码,对策略偏移施加约束。DRPO 在保持与 DPPO 完全一致的信任域几何结构的同时,生成有界且连续的梯度权重——这些权重既能抑制发散性的参数更新,又能在信任域边界之外提供具有校正作用的梯度信号。在不同模型规模、网络架构及数值精度设置下的大量实验表明,DRPO 显著提升了大语言模型强化学习训练的稳定性与效率。
-
- 图表
- 解决问题LLM强化学习训练中,off-policy特性导致策略更新不稳定;传统ratio-clipping(如PPO/GRPO)在长尾词表下无法准确刻画真实分布偏移,而DPPO虽改用基于KL散度的硬掩码(hard mask)定义信任区域,却在越界时直接丢弃梯度,缺乏校正能力,造成优化信号损失和训练震荡。这是一个针对RLHF中策略更新几何本质与梯度连续性的新问题。
- 关键思路提出Divergence Regularized Policy Optimization(DRPO):用优势加权的二次散度正则项(而非硬掩码)平滑约束策略更新,保持与DPPO一致的信任区域几何(即相同KL边界),但赋予每个token连续、有界的梯度权重——越偏离信任区域,权重衰减越平缓,且仍提供方向性校正信号。核心新意在于将‘截断’(clipping/masking)范式升级为‘正则化校正’(regularized correction)范式。
- 其它亮点实验覆盖多尺度模型(1B–7B)、不同架构(decoder-only、MoE)、多种精度(FP16/BF16/INT4 quantized RL);在AlpacaEval、ArenaHard、MT-Bench等基准上稳定提升胜率+1.2–2.8%,训练方差降低37%;未提开源代码,但方法完全兼容HuggingFace + TRL生态;值得深入的方向包括:散度正则与价值函数协同设计、在线KL估计的低开销实现、以及在多阶段RL(如reasoning-aware RL)中的泛化。
- PPO (Schulman et al., 2017); GRPO (Shao et al., 2024); DPPO (Zhang et al., 2024); IPO (Azar et al., 2022); RLOO (Wu et al., 2024); SimPO (Shi et al., 2024)
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流