Investigating the Interplay of Prioritized Replay and Generalization

简介

经验回放在强化学习中是普遍存在的，用于重复使用过去的数据并提高样本效率。虽然已经引入了各种智能抽样方案来提高性能，但均匀抽样仍然是最常见的方法。唯一的例外是优先经验回放（PER），其中抽样是按照TD误差比例进行的，灵感来自于优先扫描在动态规划中的成功。关于PER的原始工作显示在Atari游戏中有所改善，但后续结果则参差不齐。在本文中，我们研究了几种PER的变体，以尝试了解在何时何地PER可能有用。我们在预测任务中的发现表明，虽然PER可以改善表格设置中的价值传播，但与神经网络结合时行为显著不同。某些缓解措施——如延迟目标网络更新以控制泛化，以及使用PER中预期TD误差的估计值来避免追逐随机性——可以避免在PER和神经网络中出现大幅度的误差峰值，但总体而言仍然不如均匀回放。在控制任务中，没有任何优先变体能够持续优于均匀回放。
图表
解决问题

本论文旨在探究经验回放在强化学习中的表现，特别是Prioritized Experience Replay（PER）的各种变体是否能够提高性能。
关键思路

论文研究了PER在不同任务和网络结构中的表现，并提出了一些缓解方法，如延迟目标网络更新和使用TD误差的期望估计避免追逐随机性。
其它亮点

论文的实验结果表明，在预测任务中，PER可以提高表格设置中的价值传播，但与神经网络结合时行为显著不同。在控制任务中，没有任何优先级变量始终优于均匀重放。
相关研究

与本论文相关的研究包括：Schaul等人的原始PER论文以及后续的研究，以及其他经验回放的变体，如Hindsight Experience Replay和Distributed Prioritized Experience Replay。

Investigating the Interplay of Prioritized Replay and Generalization

评论