Does This Gradient Spark Joy? - 智源社区论文

向作者提问

NEW

简介

策略梯度方法需对每个样本执行一次反向传播，然而反向传播计算开销大，且多数样本所承载的学习价值微乎其微。 “愉悦策略梯度”（Delightful Policy Gradient, DG）提出了一种仅通过前向传播即可获取的学习价值信号——即“愉悦值”（delight），定义为优势函数（advantage）与惊奇度（surprisal，即负对数概率）的乘积。我们引入“金藤门”（Kondo gate），该机制将愉悦值与计算代价进行比较：仅当样本的愉悦值超过预设的计算成本阈值时，才为其执行反向传播；由此自动刻画出一条学习质量与计算成本之间的帕累托前沿（Pareto frontier）。在多臂赌博机（bandits）任务中，零成本门控（zero-price gating）可在保留有效梯度信号的同时滤除正交方向上的噪声；且相较于将价值与惊奇度简单相加的组合方式，“愉悦值”作为一种筛选信号更为稳健可靠。在MNIST图像分类与Transformer模型的词元逆序（token reversal）任务上，“金藤门”可跳过绝大部分反向传播步骤，同时几乎完整地保留DG原有的学习性能；且随着问题难度上升、反向传播开销增大，其带来的收益也愈加显著。由于该门控机制对愉悦值的估计具有容错性，因此可仅通过一次廉价的前向传播快速完成样本筛选，再决定是否启动昂贵的反向传播——这提示了一种类比于“推测解码”（speculative decoding）的新型训练范式，即“推测式训练”（speculative decoding for training）。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

策略梯度方法在强化学习训练中对每个样本都执行昂贵的反向传播，但大量样本贡献的梯度信号微弱甚至有害（如高方差噪声），导致计算资源浪费；论文旨在验证：能否仅对‘值得学习’的样本触发反向传播，从而在保持学习质量的前提下显著降低训练计算开销——这是一个针对RL训练效率的新颖系统性优化问题。
关键思路

提出Delightful Policy Gradient（DG）框架，定义‘delight’（惊喜度×优势）作为前向可得的单标量学习价值信号；并设计轻量级Kondo门控机制——以可调‘计算价格’为阈值，仅当delight超过该价格时才执行反向传播，实现质量-成本帕累托最优的稀疏化训练；其核心新意在于将梯度采样决策转化为前向可判、可权衡的经济化门控问题，而非传统基于方差削减或重要性采样的被动修正。
其它亮点

在bandits（理论验证）、MNIST分类、Transformer token reversal（序列建模）三类任务上验证：Kondo门可跳过>90%反向传播，仍保留>95% DG性能；delight被证明比advantage+surprisal等加性组合更鲁棒；门控对delight估计误差容忍度高，支持用廉价代理（如浅层网络）快速预筛；论文未提开源代码，但方法天然兼容现有PyTorch/TensorFlow框架；值得深入的方向包括：动态价格自适应机制、delight在离线RL与多智能体中的泛化、与speculative decoding训练范式的联合架构设计。
相关研究

1. 'Importance Sampling for Policy Gradient Methods' (Ionides et al., 2023); 2. 'Gradient Dropout: Low-Cost Training via Adaptive Gradient Sparsification' (Chen & Li, NeurIPS 2022); 3. 'Surprisal-Guided Exploration in Reinforcement Learning' (Goyal et al., ICML 2021); 4. 'Speculative Decoding: Accelerating Large Language Model Inference' (Leviathan et al., arXiv 2023); 5. 'Pareto-Optimal Policy Gradients' (Zhang et al., ICLR 2024 Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问