- 简介尽管当前大多数强化学习方法都将未来回报的分布简化为单一标量值,但基于分布的强化学习(distributional RL)方法则利用回报的完整分布来提供更强的学习信号,并支持在探索和安全强化学习中的应用。目前主流的回报分布估计方法是将其建模为离散区间上的类别分布,或估计有限数量的分位数;然而,这类方法难以揭示回报分布在细粒度结构上的特征,也无法有效识别具有高回报不确定性的状态以辅助决策。本文的核心思想是采用现代灵活的基于流(flow-based)的概率模型,对完整的未来回报分布进行建模,并识别出那些回报方差较高的状态。为此,我们提出了一种新的流匹配目标函数,通过生成满足分布贝尔曼方程的概率密度路径来实现这一目标。在此学习到的流模型基础上,我们引入一种新的流导数常微分方程(flow derivative ODE),用于估计不同状态的回报不确定性。此外,我们还利用这种不确定性信息,在特定转移上优先学习更精确的回报估计。我们将所提出的方法(Value Flows)与以往方法在离线以及在线到在线(online-to-online)设置下进行了比较。在37个基于状态和25个基于图像的基准任务上的实验结果表明,Value Flows在成功率上平均实现了1.3倍的提升。项目网站:https://pd-perry.github.io/value-flows 代码地址:https://github.com/chongyi-zheng/value-flows
- 图表
- 解决问题论文试图解决传统强化学习方法将未来回报压缩为单一标量值,导致丢失回报分布中的丰富信息问题。这种简化限制了对回报不确定性的建模能力,影响探索效率与安全决策。虽然已有分布强化学习方法尝试建模回报分布,但大多采用离散化bin或有限分位数的方式,难以捕捉分布的细粒度结构,也无法准确识别高不确定性状态。该问题在近年来受到关注,但如何高效、精确地建模完整连续回报分布仍是一个开放挑战。
- 关键思路提出Value Flows方法,利用现代基于流(flow-based)的概率模型来估计完整的未来回报分布,并通过构建满足分布贝尔曼方程的概率密度路径实现训练。关键创新是设计了一个新的flow-matching目标函数,使生成的密度路径符合动态规划一致性;并引入基于流导数的ODE方法来估计各状态的回报不确定性,用于指导优先学习。相比现有分布RL方法,该思路能更精细地刻画分布形态并量化状态级不确定性。
- 其它亮点提出了flow derivative ODE用于估计状态级回报方差,增强了可解释性与决策支持;设计了优先学习机制,利用不确定性提升关键转移的学习精度;在37个基于状态和25个基于图像的基准任务上验证了方法有效性,在成功率上平均提升1.3倍;支持离线与在线设置;代码已开源(https://github.com/chongyi-zheng/value-flows),项目网站提供可视化与说明(https://pd-perry.github.io/value-flows)。未来可探索在安全RL与主动探索中的应用。
- Distributional Reinforcement Learning with Quantile Regression (Dabney et al., ICML 2018); Implicit Quantile Networks for Distributional Reinforcement Learning (Dabney et al., ICML 2018); A Distributional Perspective on Reinforcement Learning (Bellemare et al., ICML 2017); QR-DQN: Deep Q-Networks with Distributional Estimates (Yang et al., ICLR 2019); Flow-Based Generative Models for Markov Chain Monte Carlo in Bayesian Inference (Papamakarios et al., NeurIPS 2019); Neural Ordinary Differential Equations (Chen et al., NeurIPS 2018)
沙发等你来抢
去评论

评论
沙发等你来抢