Co-driver: VLM-based Autonomous Driving Assistant with Human-like Behavior and Understanding for Complex Road Scenes

简介

最近有关基于大型语言模型的自动驾驶解决方案的研究显示，在规划和控制领域有着良好的前景。然而，大型语言模型的计算资源消耗和幻觉仍然阻碍了预测精确轨迹和指导控制信号的任务。为了解决这个问题，我们提出了Co-driver，一种新颖的自动驾驶助手系统，以基于对道路场景的理解赋予自动驾驶车辆可调节的驾驶行为。我们提出了一个包括CARLA模拟器和ROS2的流水线来验证我们系统的有效性，利用单个Nvidia 4090 24G GPU并利用视觉语言模型的文本输出能力。此外，我们还贡献了一个包含图像集和相应提示集的数据集，用于微调我们系统的视觉语言模型模块。在真实世界的驾驶数据集中，我们的系统在夜间场景中达到了96.16%的成功率，在阴暗场景中达到了89.7%的合理预测。我们的Co-driver数据集将在https://github.com/ZionGo6/Co-driver上发布。
图表
解决问题

提出了Co-driver自动驾驶辅助系统，旨在解决大语言模型在自动驾驶领域中计算资源消耗大、容易产生幻觉等问题，以提高自动驾驶准确性和安全性。
关键思路

Co-driver系统利用视觉语言模型，基于对道路场景的理解，赋予自动驾驶车辆可调节的驾驶行为，提高自动驾驶的精度和安全性。
其它亮点

论文通过使用CARLA模拟器和ROS2系统验证了Co-driver系统的有效性，使用单个Nvidia 4090 24G GPU，利用视觉语言模型的文本输出能力。同时，论文贡献了一个包含图像集和相应提示集的数据集，用于微调Co-driver系统中的视觉语言模型模块。在真实世界的驾驶数据集中，Co-driver系统在夜间场景和阴暗场景中的合理预测成功率分别为96.16％和89.7％。Co-driver数据集将在https://github.com/ZionGo6/Co-driver发布。
相关研究

在最近的研究中，也有一些关于自动驾驶的研究。例如：'End-to-end Driving via Conditional Imitation Learning'、'Learning to Drive in a Day'、'ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst'等。

Co-driver: VLM-based Autonomous Driving Assistant with Human-like Behavior and Understanding for Complex Road Scenes

评论