【标题】Reachability Constrained Reinforcement Learning

【作者团队】Dongjie Yu, Haitong Ma, Shengbo Eben Li, Jianyu Chen

【发表日期】2022.5.16

【论文链接】https://arxiv.org/pdf/2205.07536.pdf

【推荐理由】约束强化学习(CRL)近年来受到了广泛关注,因为满足安全约束对现实问题至关重要。然而,现有的限制贴现累积成本的CRL方法通常缺乏严格的定义和安全保证。另一方面,在安全控制研究中,安全被定义为持续满足一定的状态约束。这种持久安全性仅在状态空间的子集上才可能,称为可行集,其中给定环境存在一个最优的最大可行集。最近的研究使用基于能量的方法将安全控制与CRL结合起来,例如控制屏障函数(CBF)、安全指数(SI)利用了可行集的先验保守估计,这会损害学习策略的性能。为了解决这个问题,本文提出了一种利用可达性分析来刻画最大可行集的可达性CRL(RCRL)方法。通过建立的自一致性条件来刻画可行集,然后学习一个安全值函数,并将其用作CRL中的约束条件。本文还利用多时间尺度随机逼近理论证明了该算法收敛到一个局部最优解,其中最大可行集是可以保证的。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除