深度强化学习之Policy Gradient Theorem 综述

Policy gradient 定理作为现代深度强化学习的基石，同时也是actor-critic的基础，重要性不言而喻。但是它的推导和理解不是那么浅显，不同的资料中又有着众多形式，不禁令人困惑。本篇文章作者试图总结众多资料背后的一些相通的地方，并写下自己的一些学习理解心得。

文章将从以下几个方面进行展开介绍：