- 简介我们将功能加速应用于策略镜像下降(PMD)算法的通用家族,该家族涵盖了强化学习(RL)中的许多新颖和基础方法。借助对偶性,我们提出了一种基于动量的PMD更新。通过采用功能路线,我们的方法独立于策略参数化,并适用于大规模优化,包括以策略参数为级别的动量的先前应用作为一种特殊情况。我们在理论上分析了这种方法的几个属性,并补充了数值消融研究,以说明相对于该空间中不同的算法设计选择,策略优化动态在价值多面体上的情况。我们进一步数值化地表征了几个与功能加速相关的问题设置特征,并最后研究了近似对其学习机制的影响。
-
- 图表
- 解决问题本论文旨在通过提出一种基于动量的Policy Mirror Descent(PMD)算法更新方法,解决强化学习中的优化问题。
- 关键思路论文提出了一种基于动量的PMD更新方法,通过利用对偶性,该方法独立于策略参数化,并适用于大规模优化。
- 其它亮点论文在理论上分析了该方法的几个特性,并通过数值消融研究补充说明了该方法在价值多面体上的策略优化动态,以及在不同算法设计选择空间中的相对性。此外,论文还对与功能加速相关的问题设置进行了数值特征表征,并研究了逼近对学习机制的影响。
- 在这个领域中,最近的相关研究包括:'Policy Gradient Methods for Reinforcement Learning with Function Approximation','Deep Reinforcement Learning','Trust Region Policy Optimization'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流