CarLLaVA: Vision language models for camera-only closed-loop driving

2024年06月14日
  • 简介
    在这份技术报告中,我们介绍了CarLLaVA,一种面向自动驾驶的视觉语言模型(VLM),是为CARLA自动驾驶挑战2.0开发的。CarLLaVA使用了LLaVA VLM的视觉编码器和LLaMA架构作为骨干,仅使用相机输入就实现了最先进的闭环驾驶性能,而无需复杂或昂贵的标签。此外,我们展示了关于预测驾驶输出的语言评论的初步结果。CarLLaVA使用了路径预测和航点的半解缠输出表示,从而既能够更好地进行横向控制,又能够更好地进行纵向控制。我们提出了一种高效的训练方法,可以在大型驾驶数据集上进行训练,而不会浪费计算资源在简单的数据上。CarLLaVA在CARLA自动驾驶挑战2.0的传感器赛道中排名第一,性能比之前的最先进技术提高了458%,比最佳的同时提交技术提高了32.6%。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在开发一种用于自主驾驶的视觉语言模型,解决只使用摄像头输入而不需要复杂或昂贵标签的闭环驾驶问题。
  • 关键思路
    CarLLaVA使用LLaVA VLM的视觉编码器和LLaMA架构作为骨干,实现了最先进的闭环驾驶性能,并使用半解耦的输出表示预测路径和航点,以获得更好的横向和纵向控制。
  • 其它亮点
    该论文提出了一种高效的训练方法,可以在大型驾驶数据集上进行训练,而不会浪费计算资源。CarLLaVA在CARLA自主驾驶挑战赛2.0的传感器轨道中排名第一,超过了先前的最佳成果458%,并且比最佳竞争提交高出32.6%。
  • 相关研究
    在该领域的相关研究包括使用深度学习进行自主驾驶的各种方法,如基于神经网络的路径规划和端到端学习等。其中一些研究包括“End to End Learning for Self-Driving Cars”和“Learning a Driving Simulator”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问