Investigating the Interplay of Prioritized Replay and Generalization

2024年07月12日
  • 简介
    经验回放在强化学习中是普遍存在的,用于重复使用过去的数据并提高样本效率。虽然已经引入了各种智能抽样方案来提高性能,但均匀抽样仍然是最常见的方法。唯一的例外是优先经验回放(PER),其中抽样是按照TD误差比例进行的,灵感来自于优先扫描在动态规划中的成功。关于PER的原始工作显示在Atari游戏中有所改善,但后续结果则参差不齐。在本文中,我们研究了几种PER的变体,以尝试了解在何时何地PER可能有用。我们在预测任务中的发现表明,虽然PER可以改善表格设置中的价值传播,但与神经网络结合时行为显著不同。某些缓解措施——如延迟目标网络更新以控制泛化,以及使用PER中预期TD误差的估计值来避免追逐随机性——可以避免在PER和神经网络中出现大幅度的误差峰值,但总体而言仍然不如均匀回放。在控制任务中,没有任何优先变体能够持续优于均匀回放。
  • 图表
  • 解决问题
    本论文旨在探究经验回放在强化学习中的表现,特别是Prioritized Experience Replay(PER)的各种变体是否能够提高性能。
  • 关键思路
    论文研究了PER在不同任务和网络结构中的表现,并提出了一些缓解方法,如延迟目标网络更新和使用TD误差的期望估计避免追逐随机性。
  • 其它亮点
    论文的实验结果表明,在预测任务中,PER可以提高表格设置中的价值传播,但与神经网络结合时行为显著不同。在控制任务中,没有任何优先级变量始终优于均匀重放。
  • 相关研究
    与本论文相关的研究包括:Schaul等人的原始PER论文以及后续的研究,以及其他经验回放的变体,如Hindsight Experience Replay和Distributed Prioritized Experience Replay。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论