Reinforcement Learning via Value Gradient Flow

2026年04月15日
  • 简介
    我们研究行为正则化强化学习(RL),其中对参考分布(离线强化学习中的数据集,或大语言模型强化学习微调中的基础模型)施加正则化至关重要,可有效防止因错误的分布外外推而导致的价值函数过度优化。现有方法要么依赖重参数化策略梯度,这类方法难以扩展至大规模生成式模型;要么采用拒绝采样,而该方法在尝试突破行为分布支撑集时往往过于保守。本文提出“价值梯度流”(Value Gradient Flow, VGF),一种面向行为正则化强化学习的、可扩展的新范式。VGF 将行为正则化强化学习建模为一个最优传输问题,其目标是将参考分布映射至由价值函数所诱导的最优策略分布。我们通过离散梯度流求解该传输问题:以参考分布为初始点初始化粒子,并由价值梯度驱动其演化。理论分析表明,VGF 通过控制传输预算(transport budget)实现了隐式的正则化约束。VGF 完全摒弃了显式的策略参数化,同时仍保持高度的表达能力与灵活性,从而支持在测试阶段通过动态调节传输预算实现自适应缩放。大量实验表明,VGF 显著优于现有各类方法,在离线强化学习基准(D4RL、OGBench)及大语言模型强化学习任务上均取得了当前最优(state-of-the-art)性能。代码与实验记录详见 https://ryanxhr.github.io/vgf。
  • 作者讲解
  • 图表
  • 解决问题
    行为正则化强化学习中的策略优化与分布外泛化难题:在离线RL和大语言模型(LLM)的RL微调中,如何在不显式参数化策略的前提下,既避免价值函数对OOD动作的错误外推导致的过优化,又突破行为数据集/基模型的支持域实现适度探索——现有方法在可扩展性(如重参数化梯度)或保守性(如拒绝采样)上存在根本权衡。这是一个兼具理论深度与工程紧迫性的新问题,尤其在LLM RLHF/GRPO等实际部署场景中日益凸显。
  • 关键思路
    将行为正则化RL重构为最优传输问题:以参考分布(数据集或基模型)为起点,以价值函数诱导的最优策略分布为目标,通过离散梯度流(particle transport)实现动态映射;价值梯度直接驱动粒子演化,无需策略网络参数化;正则化强度由传输预算(transport budget)隐式控制,而非显式KL约束或温度系数。这是首次将梯度流动力学系统性引入行为正则化RL,摆脱了对策略参数化的依赖。
  • 其它亮点
    1)理论层面证明VGF隐式实施L2型运输正则化,预算控制等价于行为约束强度;2)实验覆盖D4RL(AntMaze、Kitchen)、OGBench(图强化学习)及LLM RL任务(如Alpaca-Eval风格指令优化),显著超越BCQ、CQL、IQL及最新GRPO/ReMax;3)支持测试时自适应缩放(test-time budget tuning),无需重新训练;4)代码完全开源(GitHub),含可复现的轻量级PyTorch实现与LLM集成示例;5)未来方向包括:连续时间流的稳定性分析、多模态价值梯度融合、与LLM解码器的联合流建模。
  • 相关研究
    1) 'Conservative Q-Learning for Offline Reinforcement Learning' (Kumar et al., NeurIPS 2020); 2) 'Offline Reinforcement Learning with Implicit Q-Learning' (IQL, Kostrikov et al., ICLR 2022); 3) 'Gradient Regularized Policy Optimization for Language Models' (GRPO, Yu et al., arXiv 2024); 4) 'ReMax: Reward Maximization with Constraints via Dual Gradient Descent' (Wu et al., ICML 2024); 5) 'Optimal Transport for Generative Modeling' (Genevay et al., NeurIPS 2018)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问