Policy gradient 定理作为现代深度强化学习的基石,同时也是actor-critic的基础,重要性不言而喻。但是它的推导和理解不是那么浅显,不同的资料中又有着众多形式,不禁令人困惑。本篇文章作者试图总结众多资料背后的一些相通的地方,并写下自己的一些学习理解心得。

文章将从以下几个方面进行展开介绍:

  • 引入 Policy Gradient
  • Policy Gradient Theorem
  • Policy Gradient Theorem - Trajectory Form
  • 和监督学习的联系

感兴趣的可以戳原文。

内容中包含的图片若涉及版权问题,请及时与我们联系删除