Diffusion Actor-Critic with Entropy Regulator

2024年05月24日
  • 简介
    强化学习在处理复杂的决策制定和控制任务方面已经被证明非常有效。然而,在大多数传统的强化学习算法中,策略通常被参数化为具有学习均值和方差的对角高斯分布,这限制了它们获取复杂策略的能力。为了解决这个问题,我们提出了一种在线强化学习算法,称为带熵调节器的扩散演员-评论家算法(DACER)。该算法将扩散模型的反向过程概念化为一种新的策略函数,并利用扩散模型拟合多模态分布的能力,从而增强了策略的表征能力。由于扩散策略的分布缺乏解析表达式,因此其熵无法通过解析方法确定。为了缓解这个问题,我们提出了一种利用高斯混合模型估计扩散策略熵的方法。基于估计的熵,我们可以学习一个调节探索和开发程度的参数α。参数α将被用来自适应地调节添加到扩散模型输出的动作的噪声的方差。在MuJoCo基准测试和多模态任务上的实验试验表明,DACER算法在大多数MuJoCo控制任务中实现了最先进的性能,同时展示了扩散策略更强的表征能力。
  • 图表
  • 解决问题
    论文旨在提出一种新的在线强化学习算法DACER,以增强策略的表征能力,解决传统RL算法中策略受限的问题。
  • 关键思路
    DACER算法将扩散模型的反向过程作为新的策略函数,利用扩散模型拟合多模态分布的能力,提高策略的表征能力。同时,通过高斯混合模型估计扩散策略的熵,调节噪声方差,实现自适应探索和开发。
  • 其它亮点
    DACER算法在MuJoCo控制任务和多模态任务上实验,取得了最先进的性能,同时展现了扩散策略的更强表征能力。论文提供了开源代码。
  • 相关研究
    近期相关研究包括:SAC、TD3、PPO等传统RL算法的改进,以及使用深度学习拟合策略的各种方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论