- 简介强化学习提供了一个吸引人的框架,用于机器人控制,因为它能够通过与真实世界的交互纯粹地学习表达性策略。然而,这需要解决现实世界的限制,并在训练过程中避免灾难性的失败,这可能会严重阻碍学习进展和最终策略的性能。在许多机器人设置中,这相当于避免某些“不安全”状态。高速越野驾驶任务代表了这个问题的一个特别具有挑战性的实例:高回报策略应该尽可能激进和快速地驾驶,这通常需要接近“安全”状态集的边缘,因此对方法避免频繁失败提出了特别的负担。为了同时学习高性能策略和避免过多的失败,我们提出了一种强化学习框架,将风险敏感控制与自适应动作空间课程相结合。此外,我们展示了我们的风险敏感目标在配备有认知不确定性估计器时自动避免了分布外状态。我们在小型拉力赛车上实现了我们的算法,并展示它能够学习适用于真实世界越野驾驶任务的高速策略。我们展示了我们的方法大大减少了训练过程中的安全违规次数,并且在具有类似挑战的驾驶和非驾驶模拟环境中实际上导致更高性能的策略。
- 图表
- 解决问题本文旨在通过结合风险敏感控制和自适应动作空间课程,解决高速越野驾驶任务中的安全问题,以学习高性能策略。
- 关键思路论文提出了一种结合风险敏感控制和自适应动作空间课程的强化学习框架,利用先验不确定性估计器自动避免超出分布范围的状态。
- 其它亮点实验在小型赛车上进行,证明该方法可以学习高速越野驾驶任务中的高性能策略,同时大大减少了安全违规次数。
- 近期相关研究包括《End-to-End Reinforcement Learning for Autonomous Racing with Augmented Curriculum and Transfer Learning》、《Deep Reinforcement Learning for Autonomous Driving: A Survey》等。
沙发等你来抢
去评论
评论
沙发等你来抢