- 简介现代自动驾驶的方法主要依赖于通过模仿学习大量人类驾驶数据训练出的学习组件。然而,这些方法需要大量昂贵的数据收集,即使如此,仍然面临着安全处理长尾场景和随时间累积错误的挑战。同时,纯强化学习(RL)方法在稀疏、受限和难以定义奖励设置的情况下(如驾驶)可能无法学习到高效的策略。这两个挑战都使得在自动驾驶等安全关键应用中部署纯克隆策略具有挑战性。在本文中,我们提出了结合模仿学习和强化学习(CIMRL)方法——这是一种通过利用模仿运动先验和安全约束在模拟中训练驾驶策略的框架。CIMRL不需要广泛的奖励规范,并改善了纯克隆方法的闭环行为。通过结合RL和模仿学习,我们证明了我们的方法在闭环模拟驾驶基准测试中取得了最先进的结果。
- 图表
- 解决问题论文试图解决在自动驾驶中,克服大量数据收集和复合误差等挑战,提高纯克隆策略的闭环行为,以及在稀疏、受限和难以定义奖励设置的情况下,训练出更高效的驾驶策略的问题。
- 关键思路论文提出了一种结合模仿学习和强化学习的方法(CIMRL),通过利用模仿运动先验和安全约束在仿真环境中训练驾驶策略,从而在不需要大量奖励规范的情况下,提高纯克隆方法的闭环行为。
- 其它亮点论文设计了实验来验证CIMRL方法的有效性,并在闭环仿真驾驶基准测试中取得了最先进的结果。论文还提出了一种基于安全性约束的适应性学习方法,可以在不同的驾驶场景中提高驾驶策略的泛化性能。论文使用了大量的现实驾驶数据集来训练模型,并开源了代码。
- 最近在这个领域中,还有一些相关的研究,如:End-to-End Learning for Self-Driving Cars, Learning a Driving Simulator, Safe Reinforcement Learning for Autonomous Driving等。
沙发等你来抢
去评论
评论
沙发等你来抢