EXPO: Stable Reinforcement Learning with Expressive Policies

2025年07月10日
  • 简介
    我们研究了在给定离线数据集的情况下,如何通过在线强化学习(RL)训练和微调具有高表达能力的策略。使用在线强化学习来训练具有高表达能力的策略类面临一个独特的挑战:如何稳定地最大化价值函数。与在线强化学习中常用的简单高斯策略不同,像扩散模型和流匹配模型这类具有高表达能力的策略是通过一个较长的去噪过程进行参数化的,这使得在根据某个价值函数优化策略时,难以从动作稳定地传播梯度到策略参数。我们的核心观点是,可以通过避免直接对价值函数与高表达能力策略进行优化,转而构建一个即时的强化学习策略以最大化Q值,从而解决稳定价值最大化的问题。 我们提出了“高表达策略优化”(EXPO),这是一种高效的在线强化学习算法,它利用一个即时策略来最大化价值函数,该方法结合两个参数化策略:一个通过稳定模仿学习目标训练的、更大且具有高表达能力的基础策略,以及一个轻量级的高斯编辑策略,用于将基础策略采样的动作调整至更高价值分布的方向。该即时策略通过学习到的编辑策略优化基础策略输出的动作,并从基础动作和编辑后的动作中选择能够最大化价值的动作用于采样和时间差分(TD)更新。我们的方法在平均样本效率上比之前的方法提高了约2到3倍,无论是在给定离线数据微调预训练策略的情境下,还是在利用离线数据辅助在线训练的情境中均表现出色。
  • 图表
  • 解决问题
    该论文试图解决在给定离线数据集的情况下,如何稳定地训练和微调表达能力更强的策略(如扩散模型和流匹配策略)的问题。这类策略由于参数化方式复杂(例如长去噪链),导致在在线强化学习中难以通过传统价值函数优化方法进行训练。这是一个相对较新的问题,因为过去大多数在线RL研究集中在更简单的策略类(如高斯策略)上。
  • 关键思路
    论文的核心思路是避免直接对价值函数进行梯度优化,而是构建一个“即用型”(on-the-fly)RL策略来最大化Q值。具体来说,EXPO使用两个策略:一个大型的、表达能力强的基础策略(通过稳定的模仿学习目标训练),以及一个轻量级的高斯编辑策略,用于调整基础策略输出的动作以提升其价值。这一思路不同于传统的策略梯度方法,它将动作优化与策略更新分离,提升了训练稳定性。
  • 其它亮点
    1. 提出EXPO算法,在样本效率方面平均优于现有方法2-3倍 2. 实验验证了在预训练策略基础上进行微调和从头训练在线策略的有效性 3. 结合了表达能力强的策略与高效的Q值优化机制 4. 适用于离线数据与在线学习相结合的设定(offline-to-online RL)
  • 相关研究
    1. Decision Transformer: Reinforcement Learning via Sequence Modeling 2. Flow Policy: A Unified Framework for Training and Evaluating Flow-Based Policies 3. Diffusion Policy: Visuomotor Sequences with Diffusion Models 4. TD-MPC: Model Predictive Control with Temporal Difference Learning
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论