- 简介学习表达性随机策略而非确定性策略已被提出以实现更好的稳定性、样本复杂度和鲁棒性。值得注意的是,在最大熵强化学习(MaxEnt RL)中,策略被建模为基于Q值的表达性能量模型(EBM)。然而,这种公式需要估计这些EBM的熵,这是一个未解决的问题。为了解决这个问题,以前的MaxEnt RL方法要么隐式估计熵,导致计算复杂度和方差很高(SQL),要么遵循变分推断过程,适合简化的演员分布(例如高斯)以实现可处理性(SAC)。我们提出了Stein Soft Actor-Critic(S$^2$AC),这是一种MaxEnt RL算法,可以学习表达性策略而不影响效率。具体来说,S$^2$AC使用参数化的Stein变分梯度下降(SVGD)作为底层策略。我们推导了这些策略的熵的闭式表达式。我们的公式计算效率高,只依赖于一阶导数和向量积。实证结果表明,在多目标环境中,S$^2$AC比SQL和SAC产生更优的MaxEnt目标解,并在MuJoCo基准测试中优于SAC和SQL。我们的代码可在以下网址找到:https://github.com/SafaMessaoud/S2AC-Energy-Based-RL-with-Stein-Soft-Actor-Critic。
- 图表
- 解决问题论文旨在解决最大熵强化学习中估计能量模型熵的问题,提出了一种高效的算法。
- 关键思路论文提出了一种名为Stein Soft Actor-Critic (S$^2$AC)的算法,使用参数化的Stein Variational Gradient Descent (SVGD)作为策略,通过推导出基于一阶导数和向量乘积的熵的闭式表达式,实现了高效计算。
- 其它亮点S$^2$AC算法通过学习表达性策略来实现更好的稳定性、样本复杂度和鲁棒性。与之前的MaxEnt RL方法相比,S$^2$AC算法不需要隐式估计熵,也不需要使用简化的演员分布进行变分推理。实验结果表明,在多目标环境中,S$^2$AC算法比SQL和SAC算法产生更优的最大熵目标解,并在MuJoCo基准测试中优于SAC和SQL算法。
- 与该论文相关的研究包括Maximum Entropy Reinforcement Learning (MaxEnt RL)、Energy-Based Models (EBMs)、Stein Variational Gradient Descent (SVGD)等。
沙发等你来抢
去评论
评论
沙发等你来抢