- 简介这篇论文讨论了强化学习中的最近启发式(recency heuristic)假设,即接受奖励的刺激越靠近时间上的当前状态,就应该被更加强化。最近启发式是TD($\lambda$)算法的关键假设之一,该算法根据指数衰减的权重加强最近的经验。实际上,所有其他广泛使用的TD学习的回报估计器,如$n$步回报,都满足较弱的(即非单调的)最近启发式。为什么最近启发式对于时间信用分配有效?如果信用分配违反了这个启发式会发生什么?本文分析了在TD学习中采用最近启发式的具体数学含义。我们证明了任何满足此启发式的回报估计器:1)保证收敛到正确的值函数,2)具有相对较快的收缩速率,3)具有长的有效信用分配窗口,但有界的最坏情况方差。我们还给出了一个反例,证明了违反最近启发式的在线、表格TD方法会发散。我们的结果提供了一些理论证据,表明基于最近启发式的信用分配有助于学习。
- 图表
- 解决问题分析recency heuristic在TD学习中的数学影响和有效性。
- 关键思路论文证明了任何满足recency heuristic的回报估计器都能够收敛到正确的价值函数,具有相对较快的收缩率和长时间的有效信用分配窗口,但是有界的最坏情况方差。
- 其它亮点实验设计方面没有提及。
- 没有列举相关研究的论文标题。
沙发等你来抢
去评论
评论
沙发等你来抢