【标题】Policy Gradient Method For Robust Reinforcement Learning

【作者团队】Yue Wang, Shaofeng Zou

【发表日期】2022.5.15

【论文链接】https://arxiv.org/pdf/2205.07344.pdf

【推荐理由】本文提出了第一种具有全局最优性保证和复杂性分析的策略梯度方法,用于模型失配下的鲁棒强化学习。鲁棒强化学习是学习一种对模拟环境和真实环境之间的模型失配具有鲁棒性的策略。本文首先发展了鲁棒策略(次)梯度,它适用于任何可微参数策略类。本文证明了所提出的鲁棒策略梯度方法在直接策略参数化下渐近收敛到全局最优。作者进一步发展了一种平滑的鲁棒策略梯度方法,并证明了为了达到ϵ-全局最优,复杂度为O(ϵ−3)。 然后,作者将本文的方法扩展到一般的无模型环境,并设计了具有可微参数策略类和值函数的鲁棒参与者-批评家方法。在表格设置下,本文进一步刻画了它的渐近收敛性和样本复杂性。最后,本文提供了仿真结果来证明本文的方法的鲁棒性。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除