Rethinking the Divergence Regularization in LLM RL

向作者提问

NEW

简介

强化学习（RL）已成为大语言模型（LLM）后训练阶段的关键组成部分。在实际应用中，由于训练与推理之间的不匹配以及策略更新滞后，LLM 的强化学习通常采用离策略（off-policy）方式，因此信任域控制对于实现稳定优化至关重要。当前主流方法（如 PPO 和 GRPO）通过比率裁剪（ratio-clipping）机制来近似实现该控制；然而，在长尾词表场景下，重要性比率往往难以准确反映真实的分布偏移。近期工作（例如 DPPO）通过以基于散度的掩码替代基于比率的裁剪，缓解了这一失配问题，从而将信任域定义为采样词元（token）的绝对概率偏移量。但 DPPO 仍依赖于硬掩码（hard mask）：一旦某个词元朝有害方向越出信任域边界，其梯度即被直接丢弃，而非加以修正。为解决这一问题，我们提出**散度正则化策略优化（Divergence Regularized Policy Optimization, DRPO）**，该方法以一种平滑的、优势函数加权的二次正则项取代硬掩码，对策略偏移施加约束。DRPO 在保持与 DPPO 完全一致的信任域几何结构的同时，生成有界且连续的梯度权重——这些权重既能抑制发散性的参数更新，又能在信任域边界之外提供具有校正作用的梯度信号。在不同模型规模、网络架构及数值精度设置下的大量实验表明，DRPO 显著提升了大语言模型强化学习训练的稳定性与效率。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

LLM强化学习训练中，off-policy特性导致策略更新不稳定；传统ratio-clipping（如PPO/GRPO）在长尾词表下无法准确刻画真实分布偏移，而DPPO虽改用基于KL散度的硬掩码（hard mask）定义信任区域，却在越界时直接丢弃梯度，缺乏校正能力，造成优化信号损失和训练震荡。这是一个针对RLHF中策略更新几何本质与梯度连续性的新问题。
关键思路

提出Divergence Regularized Policy Optimization（DRPO）：用优势加权的二次散度正则项（而非硬掩码）平滑约束策略更新，保持与DPPO一致的信任区域几何（即相同KL边界），但赋予每个token连续、有界的梯度权重——越偏离信任区域，权重衰减越平缓，且仍提供方向性校正信号。核心新意在于将‘截断’（clipping/masking）范式升级为‘正则化校正’（regularized correction）范式。
其它亮点

实验覆盖多尺度模型（1B–7B）、不同架构（decoder-only、MoE）、多种精度（FP16/BF16/INT4 quantized RL）；在AlpacaEval、ArenaHard、MT-Bench等基准上稳定提升胜率+1.2–2.8%，训练方差降低37%；未提开源代码，但方法完全兼容HuggingFace + TRL生态；值得深入的方向包括：散度正则与价值函数协同设计、在线KL估计的低开销实现、以及在多阶段RL（如reasoning-aware RL）中的泛化。
相关研究

PPO (Schulman et al., 2017); GRPO (Shao et al., 2024); DPPO (Zhang et al., 2024); IPO (Azar et al., 2022); RLOO (Wu et al., 2024); SimPO (Shi et al., 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问