- 简介经验回放在强化学习中是普遍存在的,用于重复使用过去的数据并提高样本效率。虽然已经引入了各种智能抽样方案来提高性能,但均匀抽样仍然是最常见的方法。唯一的例外是优先经验回放(PER),其中抽样是按照TD误差比例进行的,灵感来自于优先扫描在动态规划中的成功。关于PER的原始工作显示在Atari游戏中有所改善,但后续结果则参差不齐。在本文中,我们研究了几种PER的变体,以尝试了解在何时何地PER可能有用。我们在预测任务中的发现表明,虽然PER可以改善表格设置中的价值传播,但与神经网络结合时行为显著不同。某些缓解措施——如延迟目标网络更新以控制泛化,以及使用PER中预期TD误差的估计值来避免追逐随机性——可以避免在PER和神经网络中出现大幅度的误差峰值,但总体而言仍然不如均匀回放。在控制任务中,没有任何优先变体能够持续优于均匀回放。
- 图表
- 解决问题本论文旨在探究经验回放在强化学习中的表现,特别是Prioritized Experience Replay(PER)的各种变体是否能够提高性能。
- 关键思路论文研究了PER在不同任务和网络结构中的表现,并提出了一些缓解方法,如延迟目标网络更新和使用TD误差的期望估计避免追逐随机性。
- 其它亮点论文的实验结果表明,在预测任务中,PER可以提高表格设置中的价值传播,但与神经网络结合时行为显著不同。在控制任务中,没有任何优先级变量始终优于均匀重放。
- 与本论文相关的研究包括:Schaul等人的原始PER论文以及后续的研究,以及其他经验回放的变体,如Hindsight Experience Replay和Distributed Prioritized Experience Replay。
沙发等你来抢
去评论
评论
沙发等你来抢