Human-compatible driving partners through data-regularized self-play reinforcement learning

向作者提问

NEW

简介

自动驾驶车辆面临的一个核心挑战是如何与人类协调。因此，在模拟中加入逼真的人类角色对于自动驾驶系统的可扩展培训和评估至关重要。模拟代理通常是通过模仿大规模、高质量的人类驾驶数据集来开发的。然而，当纯模仿学习代理在多代理闭环设置下执行时，实际上会出现高碰撞率的情况。为了构建在闭环设置下逼真且有效的代理，我们提出了人类规范化PPO（HR-PPO），这是一种多代理算法，代理通过自我博弈进行训练，只有在偏离人类参考策略时才会受到小的惩罚。与以往的方法不同，我们的方法是以强化学习为主，并且只使用了30分钟的不完美人类演示。我们在大量的多代理交通场景中评估了代理。结果显示，我们的HR-PPO代理在实现目标方面非常有效，成功率为93％，离路率为3.5％，碰撞率为3％。同时，代理以类似于现有人类驾驶日志的方式进行驾驶。我们还发现，HR-PPO代理在与人类驾驶协调的代理测量方面显示出相当大的改进，特别是在高度互动的场景中。我们在https://github.com/Emerge-Lab/nocturne_lab开源了我们的代码和训练代理，并在https://sites.google.com/view/driving-partners上提供了代理行为演示。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决自动驾驶车辆与人类协调的问题，提出了一种在模拟环境中训练自动驾驶车辆的算法。
关键思路

论文提出了一种名为HR-PPO的多智能体算法，通过自我博弈训练代理人，并对偏离人类参考策略的行为进行小惩罚。相比于之前的方法，HR-PPO算法更加注重强化学习，只使用了30分钟的不完美人类演示数据。
其它亮点

论文的实验使用了大量的多智能体交通场景，并且开源了代码和训练代理人模型。实验结果表明，HR-PPO代理人能够高效地实现目标，成功率达到93％，离开道路率为3.5％，碰撞率为3％。此外，代理人的驾驶方式类似于人类驾驶，与现有的人类驾驶日志相似。研究还发现，HR-PPO代理人在与人类驾驶交互的场景中表现出了相当大的改进。
相关研究

近期的相关研究包括“Multi-Agent Reinforcement Learning for Traffic Light Control”和“Learning to Drive Smoothly in Minutes”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问