Actor-Critic Reinforcement Learning with Phased Actor

2024年04月18日
  • 简介
    在演员-评论家强化学习中,策略梯度方法已成为解决连续最优控制问题最有希望的方法之一。然而,强化学习的试错性质和解决方案近似所伴随的固有随机性导致学习到的最优值和策略存在变化,这显著阻碍了它们在实际应用中的成功部署,因为控制响应需要确定地满足动态性能标准。本研究提出了一种新颖的分阶段演员-评论家方法(PAAC),旨在改善策略梯度估计,从而提高控制策略的质量。具体而言,PAAC在演员更新中考虑了$Q$值和TD误差。我们证明了PAAC的定性性质,包括值和策略的学习收敛性、解决方案的最优性以及系统动态的稳定性。此外,我们展示了策略梯度估计中的方差减少。本研究在DeepMind控制套件(DMC)中系统地定量评估了PAAC的性能。结果表明,PAAC通过总成本、学习方差、鲁棒性、学习速度和成功率等指标显著提高了性能。由于PAAC可以附加到通用的策略梯度学习框架上,我们选择了众所周知的方法,如直接启发式动态规划(dHDP)、深度确定性策略梯度(DDPG)及其变体,以展示PAAC的有效性。因此,我们提供了这些相关策略梯度算法的统一视角。
  • 图表
  • 解决问题
    提高策略梯度估计的质量和控制策略的性能
  • 关键思路
    提出了一种新的Phased Actor in Actor-Critic(PAAC)方法,通过在演员更新中考虑Q值和TD误差来改善策略梯度估计,从而提高控制策略的性能。PAAC还证明了学习收敛性、解决方案最优性和系统动力学稳定性等定性特性,并减少了策略梯度估计的方差。
  • 其它亮点
    使用DeepMind Control Suite(DMC)对PAAC进行了系统和定量评估,结果表明,PAAC在总成本、学习方差、鲁棒性、学习速度和成功率等方面均有显著的性能提升。PAAC还可与常见的策略梯度学习框架相结合,如直接启发式动态规划(dHDP)、深度确定性策略梯度(DDPG)及其变体。
  • 相关研究
    相关研究包括深度强化学习、策略梯度方法和演员-评论家方法等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论