Reinforcement Learning via Value Gradient Flow

向作者提问

NEW

简介

我们研究行为正则化强化学习（RL），其中对参考分布（离线强化学习中的数据集，或大语言模型强化学习微调中的基础模型）施加正则化至关重要，可有效防止因错误的分布外外推而导致的价值函数过度优化。现有方法要么依赖重参数化策略梯度，这类方法难以扩展至大规模生成式模型；要么采用拒绝采样，而该方法在尝试突破行为分布支撑集时往往过于保守。本文提出“价值梯度流”（Value Gradient Flow, VGF），一种面向行为正则化强化学习的、可扩展的新范式。VGF 将行为正则化强化学习建模为一个最优传输问题，其目标是将参考分布映射至由价值函数所诱导的最优策略分布。我们通过离散梯度流求解该传输问题：以参考分布为初始点初始化粒子，并由价值梯度驱动其演化。理论分析表明，VGF 通过控制传输预算（transport budget）实现了隐式的正则化约束。VGF 完全摒弃了显式的策略参数化，同时仍保持高度的表达能力与灵活性，从而支持在测试阶段通过动态调节传输预算实现自适应缩放。大量实验表明，VGF 显著优于现有各类方法，在离线强化学习基准（D4RL、OGBench）及大语言模型强化学习任务上均取得了当前最优（state-of-the-art）性能。代码与实验记录详见 https://ryanxhr.github.io/vgf。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

行为正则化强化学习中的策略优化与分布外泛化难题：在离线RL和大语言模型（LLM）的RL微调中，如何在不显式参数化策略的前提下，既避免价值函数对OOD动作的错误外推导致的过优化，又突破行为数据集/基模型的支持域实现适度探索——现有方法在可扩展性（如重参数化梯度）或保守性（如拒绝采样）上存在根本权衡。这是一个兼具理论深度与工程紧迫性的新问题，尤其在LLM RLHF/GRPO等实际部署场景中日益凸显。
关键思路

将行为正则化RL重构为最优传输问题：以参考分布（数据集或基模型）为起点，以价值函数诱导的最优策略分布为目标，通过离散梯度流（particle transport）实现动态映射；价值梯度直接驱动粒子演化，无需策略网络参数化；正则化强度由传输预算（transport budget）隐式控制，而非显式KL约束或温度系数。这是首次将梯度流动力学系统性引入行为正则化RL，摆脱了对策略参数化的依赖。
其它亮点

1）理论层面证明VGF隐式实施L2型运输正则化，预算控制等价于行为约束强度；2）实验覆盖D4RL（AntMaze、Kitchen）、OGBench（图强化学习）及LLM RL任务（如Alpaca-Eval风格指令优化），显著超越BCQ、CQL、IQL及最新GRPO/ReMax；3）支持测试时自适应缩放（test-time budget tuning），无需重新训练；4）代码完全开源（GitHub），含可复现的轻量级PyTorch实现与LLM集成示例；5）未来方向包括：连续时间流的稳定性分析、多模态价值梯度融合、与LLM解码器的联合流建模。
相关研究

1) 'Conservative Q-Learning for Offline Reinforcement Learning' (Kumar et al., NeurIPS 2020); 2) 'Offline Reinforcement Learning with Implicit Q-Learning' (IQL, Kostrikov et al., ICLR 2022); 3) 'Gradient Regularized Policy Optimization for Language Models' (GRPO, Yu et al., arXiv 2024); 4) 'ReMax: Reward Maximization with Constraints via Dual Gradient Descent' (Wu et al., ICML 2024); 5) 'Optimal Transport for Generative Modeling' (Genevay et al., NeurIPS 2018)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问