- 简介现代自动驾驶的方法主要依赖于通过模仿学习大量人类驾驶数据训练得到的学习组件。然而,这些方法需要大量昂贵的数据收集,即使如此,仍然面临着处理长尾场景和随着时间推移累积误差安全性的挑战。同时,纯强化学习(RL)方法在稀疏、受限和难以定义奖励设置的情况下(如驾驶)可能无法学习出性能良好的策略。这两个挑战都使得在自动驾驶等安全关键应用中部署纯克隆策略变得具有挑战性。在本文中,我们提出了组合模仿学习和强化学习(CIMRL)方法——这是一种框架,通过利用模仿运动先验和安全约束,在模拟环境中训练驾驶策略。CIMRL不需要广泛的奖励规范,并改善了纯克隆方法的闭环行为。通过结合RL和模仿学习,我们证明了我们的方法在闭环模拟驾驶基准测试中达到了最先进的结果。
- 图表
- 解决问题本论文旨在解决自动驾驶中数据采集成本高、长尾场景和复合误差问题,以及纯强化学习方法在稀疏、受限和难以定义奖励的情况下难以学习高性能策略的问题。
- 关键思路论文提出了一种结合了模仿学习和强化学习的框架,通过利用模仿运动先验和安全约束在仿真环境中训练驾驶策略,不需要过多的奖励规范,提高了纯克隆方法的闭环行为,实现了在闭环仿真驾驶基准测试中的最新结果。
- 其它亮点论文设计了一种结合了模仿学习和强化学习的框架,能够提高自动驾驶策略的闭环行为;在闭环仿真驾驶基准测试中实现了最新结果;使用了大量的仿真数据进行训练,并且开源了代码。
- 近期在自动驾驶领域的相关研究包括:《End-to-end Driving via Conditional Imitation Learning》、《Learning to Drive in a Day》、《Deep Reinforcement Learning for Autonomous Driving》等。
沙发等你来抢
去评论
评论
沙发等你来抢