【标题】Penalized Proximal Policy Optimization for Safe Reinforcement Learning

【作者团队】Linrui zhang, Li Shen, Long Yang

【发表日期】2022.5.24

【论文链接】https://arxiv.org/pdf/2205.11814.pdf

【推荐理由】安全强化学习的目的是在满足安全约束的同时学习最优策略,这在实际应用中是必不可少的。然而,当前的算法仍然难以在硬约束满足的情况下实现有效的策略更新。在本文中,作者提出了惩罚近似策略优化(P3O)算法,它通过一个等价的无约束问题的最小化来解决繁琐的约束策略迭代。具体来说,P3O利用一个简单而有效的惩罚函数来消除成本约束,并通过裁剪智能体目标来消除信任域约束。作者用有限惩罚因子从理论上证明了该方法的正确性,并对样本轨迹上的近似误差进行了最坏情况分析。此外,本文将P3O扩展到更具挑战性的多约束和多智能体场景,这些场景在以前的工作中研究较少。大量实验表明,对于一组受约束的机车任务,P3O在奖励改善和约束满足方面都优于最先进的算法。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除