Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline

2024年05月04日
  • 简介
    政策导向的方法在解决具有挑战性的强化学习问题方面取得了显著的成功。在这些方法中,离线策略梯度方法特别重要,因为它们可以从离线数据中受益。然而,这些方法受到离线策略梯度(OPPG)估计器高方差的困扰,这导致训练过程中的样本效率较低。在本文中,我们提出了一种带有最优动作依赖基线(Off-OAB)的离线策略梯度方法,以减轻这种方差问题。具体而言,该基线在理论上最小化了OPPG估计器的方差,同时保持了其无偏性。为了提高实际的计算效率,我们设计了该最优基线的近似版本。利用这个近似,我们的方法(Off-OAB)旨在在策略优化过程中减少OPPG估计器的方差。我们在OpenAI Gym和MuJoCo的六个代表性任务上评估了所提出的Off-OAB方法,在其中大多数任务上明显优于最先进的方法。
  • 图表
  • 解决问题
    解决问题:本论文旨在解决强化学习中离线策略梯度方法中高方差的问题,提出了一种新的基于最优动作依赖基线的离线策略梯度方法。
  • 关键思路
    关键思路:论文提出了一种最优动作依赖基线来减少离线策略梯度方法中的方差问题,以提高训练的效率。同时,为了提高计算效率,设计了一个近似的最优基线。
  • 其它亮点
    其他亮点:论文在OpenAI Gym和MuJoCo数据集上进行了六个实验,并展示了该方法在大多数任务上优于现有方法。此外,该论文还提供了开源代码。
  • 相关研究
    相关研究:最近的相关研究包括A2C、PPO、SAC等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论