【论文标题】Model-free Safe Control for Zero-Violation Reinforcement Learning  (零违规强化学习的无模型安全控制)

【作者团队】Weiye Zhao, Tairan He, Changliu Liu 

【论文链接】https://openreview.net/pdf?id=UGp6FDaxB0f

【推荐理由】虽然深度强化学习 (DRL) 在各种连续控制任务中具有令人印象深刻的性能,但限制 DRL 在物理世界中应用的一个关键障碍是缺乏安全保证。DRL 智能体在训练期间持续满足硬性状态约束(称为安全规范)具有挑战性。另一方面,具有安全保证的安全控制方法已被广泛研究。然而,为了综合安全控制,这些方法需要明确的动力系统分析模型;但这些模型通常在 DRL 中不可用。本文提出了一种无模型安全控制策略来合成 DRL 智能体的保障措施,这将确保训练期间的零安全违规。尤其本文提出了一个隐式安全集算法,它仅通过查询黑盒动态函数来综合安全指标和随后的安全控制律。理论结果表明隐式安全集算法保证了安全集的前向不变性和有限时间收敛。本文在最先进的安全基准上验证了所提出的方法。

内容中包含的图片若涉及版权问题,请及时与我们联系删除