【作者团队】Ziheng Wang, Justin Sirignano

【论文链接】https://arxiv.org/pdf/2108.08655.pdf

【推荐理由】Actor-Critic 算法广泛用于强化学习,但由于非 i.i.d 数据样本的在线到达,数学分析具有挑战性。数据样本的分布随着模型的更新而动态变化,在数据分布和强化学习算法之间引入了一个复杂的反馈循环。本文证明,在时间重新缩放下,具有表格参数化的在线 actor-critic 算法会随着更新次数的增加而收敛到常微分方程 (ODE)。该证明首先建立了固定参与者策略下数据样本的几何遍历性。然后,使用泊松方程,本文证明数据样本围绕动态概率度量的波动,这是不断发展的参与者模型的函数,随着更新数量的增加而消失。一旦推导出 ODE 极限,就使用两个时间尺度分析来研究其收敛特性,该分析将评论家 ODE 与参与者 ODE 渐近解耦。证明了批评者对贝尔曼方程解的收敛性和行动者对最优策略的收敛性。此外,还建立了对这个全局最小值的收敛速度。本文的收敛性分析在actor-critic算法中学习率和探索率的特定选择下成立,这可以为actor-critic算法在实践中的实现提供指导。证明了批评者对贝尔曼方程解的收敛性和行动者对最优策略的收敛性。此外,还建立了对这个全局最小值的收敛速度。

内容中包含的图片若涉及版权问题,请及时与我们联系删除