Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization

向作者提问

NEW

简介

扩散模型因其强大的表达能力和多模态而在强化学习中受到广泛关注。已经验证利用扩散策略可以显著提高连续控制任务中RL算法的性能，克服了单峰策略（如高斯策略）的局限性，并为智能体提供了增强的探索能力。然而，现有研究主要集中在扩散策略在离线RL中的应用，而它们在在线RL中的应用则研究较少。扩散模型的训练目标被称为变分下界，由于“好”的动作不可用，它不能在在线RL中直接优化。这导致进行扩散策略改进存在困难。为了克服这个问题，我们提出了一种新颖的无模型扩散型在线RL算法，即Q-weighted Variational Policy Optimization（QVPO）。具体而言，我们引入了Q-weighted变分损失，可以在特定条件下证明是在线RL中策略目标的一个紧密下界。为了满足这些条件，我们为一般情况引入了Q-weight转换函数。此外，为了进一步增强扩散策略的探索能力，我们设计了一个特殊的熵正则化项。我们还开发了一种高效的行为策略，通过减少在线交互过程中扩散策略的方差来提高样本效率。因此，QVPO算法利用了扩散策略的探索能力和多模态性，防止RL智能体收敛到次优策略。为了验证QVPO的有效性，我们在MuJoCo基准测试上进行了全面的实验。最终结果表明，QVPO在累积奖励和样本效率方面均实现了最先进的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决在线强化学习中的多模态问题，并提出了一种基于扩散模型的在线强化学习算法，名为Q-weighted Variational Policy Optimization (QVPO)。
关键思路

QVPO算法中，引入了Q-weighted variational loss作为在线强化学习中扩散模型的优化目标，并设计了一个特殊的熵正则化项，以增强探索能力。同时，通过引入Q-weight变换函数，满足了在线学习的条件，提高了算法的鲁棒性。
其它亮点

论文在MuJoCo基准测试中进行了全面的实验，证明了QVPO算法在累积奖励和样本效率方面都取得了最先进的性能。此外，论文还提出了一种有效的行为策略，以减少在线交互过程中扩散策略的方差。
相关研究

最近的相关研究包括：Diffusion Models in Reinforcement Learning: A Survey, Learning to Explore via Meta-Policy Optimization, Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问