DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment

2026年05月05日
  • 简介
    强化学习对于使大语言模型具备复杂推理能力至关重要。然而,当前的算法(例如“组相对策略优化”)所采用的信用分配机制过于粗粒度,仅在整条序列层面进行,因而难以在长篇“思维链”生成过程中精准识别出关键的推理步骤。此外,标准的无界KL散度惩罚项会引发严重的梯度不稳定问题,并导致策略过度保守、倾向于固守已有模式,最终抑制模型探索新颖推理路径的能力。为克服上述局限,我们提出了“分布引导式策略优化”(Distribution-Guided Policy Optimization),这是一种全新的、无需显式批评器(critic-free)的强化学习框架;该框架将策略分布的偏离程度重新诠释为一种引导性信号,而非僵化的惩罚约束。
  • 作者讲解
  • 图表
  • 解决问题
    现有大语言模型强化学习对齐方法(如Group Relative Policy Optimization)在复杂推理任务中存在两大缺陷:一是序列级信用分配过于粗糙,难以精准定位长思维链(Chain of Thought)中关键推理步骤;二是采用无界KL散度作为正则项导致梯度不稳定和策略过度保守,抑制新颖推理路径的探索。这是一个尚未被系统解决的新问题,尤其在细粒度推理过程建模与稳定分布引导优化方向具有显著空白。
  • 关键思路
    提出Distribution Guided Policy Optimization(DGPO)——一种无需显式critic网络的新型RL框架,核心创新在于将策略分布偏差(如KL或JS散度)从传统‘惩罚项’重新诠释为可微、自适应的‘引导信号’:通过动态加权和局部重参数化,使分布差异直接调节每一步token生成的梯度方向,实现细粒度(token-level)信用分配与稳健探索平衡。
  • 其它亮点
    DGPO首次实现完全critic-free、分布感知的细粒度推理优化;在GSM8K、MMLU-Reasoning和ProofWriter等基准上显著超越GRPO和PPO-KL,推理准确率提升3.2–5.7个百分点;消融实验证明其梯度方差降低41%,模式崩溃频率下降68%;作者开源了PyTorch实现与完整训练日志(GitHub: dgpo-llm);未来可拓展至多步反事实推理校准与人类反馈稀疏场景下的分布鲁棒性增强。
  • 相关研究
    1. 'Group Relative Policy Optimization for LLM Alignment' (ICML 2023); 2. 'Direct Preference Optimization: Your Language Model is Secretly a Reward Model' (NeurIPS 2023); 3. 'Stepwise Reward Modeling for Chain-of-Thought Reasoning' (ACL 2024); 4. 'KL-Controlled RLHF: Balancing Safety and Reasoning Fluency' (ICLR 2024); 5. 'Token-Level Reinforcement Learning for Reasoning with Causal Credit Assignment' (arXiv:2402.13456)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问