- 简介我们展示了解决连续强化学习问题的折扣方法,如果通过减去奖励的经验平均值来对奖励进行中心化,它们的表现可以显著提高。在常用的折扣因子下,这种改进是相当大的,随着折扣因子接近1,改进会进一步增加。此外,我们还展示了,如果问题的奖励被一个常数偏移,那么标准方法的表现会差得多,而奖励中心化的方法则不受影响。在on-policy的情况下,估计平均奖励是很直接的;在off-policy的情况下,我们提出了一个稍微复杂一些的方法。奖励中心化是一个通用的想法,因此我们预计几乎每个强化学习算法都会通过添加奖励中心化而受益。
- 图表
- 解决问题论文旨在解决强化学习中的连续问题,通过减去奖励的经验平均值来中心化奖励,以提高强化学习算法的性能。
- 关键思路中心化奖励是提高强化学习算法性能的一般性思路,可以显著提高常用的折扣因子下的性能,并在折扣因子接近1时进一步提高。
- 其它亮点论文提出了一种简单易行的方法来估计奖励的平均值,可以在on-policy和off-policy设置中使用。此外,论文还发现,如果奖励值被一个常数偏移,标准方法的性能会大幅下降,而采用奖励中心化方法则不受影响。
- 在强化学习领域,还有一些相关研究,如《Playing Atari with Deep Reinforcement Learning》、《Human-level control through deep reinforcement learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢