Does This Gradient Spark Joy?

2026年03月20日
  • 简介
    策略梯度方法需对每个样本执行一次反向传播,然而反向传播计算开销大,且多数样本所承载的学习价值微乎其微。 “愉悦策略梯度”(Delightful Policy Gradient, DG)提出了一种仅通过前向传播即可获取的学习价值信号——即“愉悦值”(delight),定义为优势函数(advantage)与惊奇度(surprisal,即负对数概率)的乘积。 我们引入“金藤门”(Kondo gate),该机制将愉悦值与计算代价进行比较:仅当样本的愉悦值超过预设的计算成本阈值时,才为其执行反向传播;由此自动刻画出一条学习质量与计算成本之间的帕累托前沿(Pareto frontier)。 在多臂赌博机(bandits)任务中,零成本门控(zero-price gating)可在保留有效梯度信号的同时滤除正交方向上的噪声;且相较于将价值与惊奇度简单相加的组合方式,“愉悦值”作为一种筛选信号更为稳健可靠。 在MNIST图像分类与Transformer模型的词元逆序(token reversal)任务上,“金藤门”可跳过绝大部分反向传播步骤,同时几乎完整地保留DG原有的学习性能;且随着问题难度上升、反向传播开销增大,其带来的收益也愈加显著。 由于该门控机制对愉悦值的估计具有容错性,因此可仅通过一次廉价的前向传播快速完成样本筛选,再决定是否启动昂贵的反向传播——这提示了一种类比于“推测解码”(speculative decoding)的新型训练范式,即“推测式训练”(speculative decoding for training)。
  • 作者讲解
  • 图表
  • 解决问题
    策略梯度方法在强化学习训练中对每个样本都执行昂贵的反向传播,但大量样本贡献的梯度信号微弱甚至有害(如高方差噪声),导致计算资源浪费;论文旨在验证:能否仅对‘值得学习’的样本触发反向传播,从而在保持学习质量的前提下显著降低训练计算开销——这是一个针对RL训练效率的新颖系统性优化问题。
  • 关键思路
    提出Delightful Policy Gradient(DG)框架,定义‘delight’(惊喜度×优势)作为前向可得的单标量学习价值信号;并设计轻量级Kondo门控机制——以可调‘计算价格’为阈值,仅当delight超过该价格时才执行反向传播,实现质量-成本帕累托最优的稀疏化训练;其核心新意在于将梯度采样决策转化为前向可判、可权衡的经济化门控问题,而非传统基于方差削减或重要性采样的被动修正。
  • 其它亮点
    在bandits(理论验证)、MNIST分类、Transformer token reversal(序列建模)三类任务上验证:Kondo门可跳过>90%反向传播,仍保留>95% DG性能;delight被证明比advantage+surprisal等加性组合更鲁棒;门控对delight估计误差容忍度高,支持用廉价代理(如浅层网络)快速预筛;论文未提开源代码,但方法天然兼容现有PyTorch/TensorFlow框架;值得深入的方向包括:动态价格自适应机制、delight在离线RL与多智能体中的泛化、与speculative decoding训练范式的联合架构设计。
  • 相关研究
    1. 'Importance Sampling for Policy Gradient Methods' (Ionides et al., 2023); 2. 'Gradient Dropout: Low-Cost Training via Adaptive Gradient Sparsification' (Chen & Li, NeurIPS 2022); 3. 'Surprisal-Guided Exploration in Reinforcement Learning' (Goyal et al., ICML 2021); 4. 'Speculative Decoding: Accelerating Large Language Model Inference' (Leviathan et al., arXiv 2023); 5. 'Pareto-Optimal Policy Gradients' (Zhang et al., ICLR 2024 Workshop)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问