- 简介本文中,通过对强化学习中基本算法——采用单纯形参数化的投影策略梯度、采用softmax参数化的策略梯度和自然策略梯度的研究,我们对它们在折扣马尔可夫决策过程中的收敛性进行了系统研究。尽管已经可以准确评估策略,但它们的收敛性仍未完全理解。本文提出了几个新的结果,包括:1)对于任何恒定步长,单纯形参数化的投影策略梯度具有全局线性收敛性;2)对于任何恒定步长,softmax参数化的策略梯度具有次线性收敛性;3)对于任何恒定步长,softmax参数化的自然策略梯度具有全局线性收敛性;4)对于比现有结果更广泛的恒定步长范围,熵正则化的softmax策略梯度具有全局线性收敛性;5)熵正则化的自然策略梯度具有紧致的局部线性收敛速度;6)在不假定最优策略下的稳态分布的情况下,提出了一种新的简明局部二次收敛速度的软策略迭代分析技术。本文采用的分析技术是新颖而基础的。
- 图表
- 解决问题本论文旨在研究强化学习中的一些基本算法,包括在简单形式参数化下的投影策略梯度、在softmax形式参数化下的策略梯度和自然策略梯度,以及熵正则化softmax策略梯度等。研究它们在折扣MDP设置下的收敛行为。
- 关键思路本文提出了几种新颖的算法收敛结果,包括全局线性收敛的投影策略梯度、任意常数步长的softmax策略梯度的次线性收敛、全局线性收敛的softmax自然策略梯度、熵正则化softmax策略梯度在更广范围的常数步长下的全局线性收敛、熵正则化自然策略梯度的紧凑局部线性收敛率,以及没有假设在最优策略下的稳态分布的软策略迭代的新的简洁的局部二次收敛率。本文还开发了新的分析技术来证明这些结果。
- 其它亮点本文的实验是在折扣MDP设置下进行的,提出的算法收敛结果新颖且具有实用价值。除此之外,本文提出的算法在更广范围的常数步长下也能实现全局线性收敛,这是之前研究没有考虑到的。本文的分析方法也是新颖的,对于相关领域的研究有启发作用。
- 近期在这个领域中,还有一些相关的研究,如“Policy Gradient Methods for Reinforcement Learning with Function Approximation”和“Natural Policy Gradient Methods for Reinforcement Learning”。
沙发等你来抢
去评论
评论
沙发等你来抢