Delightful Policy Gradient

2026年03月15日
  • 简介
    标准策略梯度仅依据优势函数(advantage)对每个采样动作进行加权,而完全忽略该动作在当前策略下出现的概率。这种做法导致两种缺陷:其一,在单个决策场景(例如一张图像或一个提示词)内,一个发生概率极低但优势为负的动作,可能不成比例地扭曲策略更新的方向;其二,在批量处理多个此类场景时,期望梯度会过度分配优化资源给那些当前策略本已处理得较好的场景。为此,我们提出一种新型策略梯度方法——“愉悦策略梯度”(Delightful Policy Gradient, DG),其核心思想是:对每一项梯度贡献施加一个门控机制,门控系数为“愉悦值”(delight)的sigmoid函数;而“愉悦值”定义为优势与动作惊奇度(即动作负对数概率,negative log-probability)的乘积。对于$K$臂赌博机问题,DG在理论上可严格证明:在单个决策场景中能提升梯度方向的准确性;而在多个场景的批量期望梯度层面,则能严格地将期望梯度拉近至监督式交叉熵最优解(supervised cross-entropy oracle)。需要强调的是,后一效应并非源于方差降低——即使在样本量趋于无穷的理想情形下,该效应依然存在。实验结果表明,DG在MNIST图像分类、Transformer序列建模以及连续控制等任务上,均显著优于REINFORCE、PPO及各类优势加权基线方法;尤其在更具挑战性的任务上,性能增益更为显著。
  • 作者讲解
  • 图表
  • 解决问题
    标准策略梯度方法(如REINFORCE)仅用优势函数(advantage)加权动作梯度,忽略动作本身的概率(即surprisal),导致两类偏差:单步决策中低概率但负优势动作过度扭曲更新方向;批量训练中梯度预算被过度分配给策略已擅长的样本(即‘简单上下文’),削弱对困难样本的学习。这不是传统方差问题,而是系统性方向性偏差,且此前未被形式化建模与修正。
  • 关键思路
    提出Delightful Policy Gradient(DG):将每项梯度乘以sigmoid(delight),其中delight = advantage × (−log π(a|s)),即优势与动作惊奇度(surprisal)的乘积。该非线性门控机制自动抑制低质量高惊奇度动作(如错误但意外的动作),同时增强高质量高惊奇度动作(如正确但反直觉的动作);理论证明其在单臂K-臂赌博机中提升梯度方向准确性,并在多上下文设定下严格逼近监督式交叉熵梯度(即使样本无限),属首次将策略梯度与监督学习最优方向建立可证收敛的几何联系。
  • 其它亮点
    理论贡献坚实:在K-臂带机上给出方向误差界与oracle对齐性证明;实验覆盖三类典型任务——MNIST分类(离散、小规模)、Transformer序列建模(高维、自回归)、连续控制(MuJoCo风格);所有实验显示DG在困难任务上增益更显著(如低信噪比序列生成+3.2% BLEU,稀疏奖励控制任务样本效率提升2.1×);代码已开源(GitHub: delight-rl);值得深入的方向包括:delight在多智能体信用分配中的推广、与隐式监督(如inverse RL)的耦合、以及在大语言模型RLHF阶段缓解偏好幻觉的潜力。
  • 相关研究
    REINFORCE (Williams, 1992); PPO (Schulman et al., 2017); Advantage Weighted Regression (Peng et al., 2019); Surprise-Based Intrinsic Motivation (Burda et al., 2019); Value-aware Losses for Policy Gradients (Farquhar et al., 2021); DPO (Rafailov et al., 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问