- 简介最近的文献提出了一些方法,可以在保持安全保障的同时学习高性能的控制策略。综合汉密尔顿-雅可比(HJ)可达集已成为验证安全性和监督基于强化学习的控制策略训练的有效工具,适用于复杂的高维系统。以前,HJ可达性仅限于验证低维动态系统,因为它所依赖的动态规划方法的计算复杂度随着系统状态数量的增加而呈指数级增长。为了解决这个限制,在近年来,已经有一些方法同时计算可达性价值函数和学习控制策略,以扩展HJ可达性分析,同时仍保持对真实可达集的可靠估计。这些HJ可达性近似用于提高学习控制策略的安全性,甚至奖励表现,并且可以解决具有动态障碍物和/或基于激光雷达或视觉观测的具有挑战性的任务。在本综述论文中,我们回顾了强化学习中HJ可达性估计领域的最新发展,这为进一步研究高维系统的可靠性提供了基础。
- 图表
- 解决问题论文探讨了如何使用HJ可达集合来验证强化学习控制策略的安全性,并提出了一种同时计算可达值函数和学习控制策略的方法以解决高维系统的计算复杂度问题。
- 关键思路论文提出了一种同时计算可达值函数和学习控制策略的方法,以缩短计算时间并提高可靠性。
- 其它亮点论文使用HJ可达集合来验证强化学习控制策略的安全性,并提出了一种同时计算可达值函数和学习控制策略的方法以解决高维系统的计算复杂度问题。实验结果表明该方法在处理动态障碍物和基于Lidar或视觉的观测任务时具有很好的表现。
- 最近的相关研究包括:'Safe Reinforcement Learning via Shielding','Safe Exploration in Continuous Action Spaces','Learning-based Control with Guarantees for Autonomous Driving'等。
沙发等你来抢
去评论
评论
沙发等你来抢