The Harker School | 基于模仿学习与人类驾驶数据集成强化学习的自动驾驶训练效率提升

【标题】Integrating Imitation Learning with Human Driving Data into Reinforcement Learning to Improve Training Efficiency for Autonomous Driving

【作者】 Heidi Lu

【发表日期】2021.11.23

【论文链接】https://arxiv.org/pdf/2111.11987.pdf

【推荐理由】目前用于训练自动驾驶汽车的两种方法是强化学习和模仿学习。本研究通过将监督模仿学习与强化学习相结合，提出了一种新的学习方法和系统方法，使RL训练数据收集过程更加有效。通过结合这两种方法，本研究成功地利用了RL和IL方法的优点。首先，使用模仿学习在 6 英尺 x 9 英尺的真实世界轨道上组装和训练一辆真正的微型机器人汽车。在此过程中，使用手柄控制器通过模仿人类专家驾驶员来控制微型机器人汽车在轨道上行驶，并使用Microsoft AirSim 的API 手动记录动作。能够生成和收集 331 个准确的类人奖励训练样本。然后，在Microsoft AirSim模拟器中使用强化学习对一名智能体进行6小时的训练，并从模仿学习训练中输入最初的331个奖励数据。经过6小时的训练后，微型机器人车能够在6英尺×9英尺的赛道上自动完成全程，而即使经过30小时的纯RL训练，微型机器人车也无法在赛道上完成全程。新方法减少了80%的训练时间，每小时的平均奖励显著增加。因此，新方法能够节省大量训练时间，并可用于加速自动驾驶中RL的采用，这将有助于在应用于实际场景时产生更高效、更好的长期结果。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

The Harker School | 基于模仿学习与人类驾驶数据集成强化学习的自动驾驶训练效率提升

评论列表

评论