CarLLaVA: Vision language models for camera-only closed-loop driving

向作者提问

NEW

简介

在这份技术报告中，我们介绍了CarLLaVA，一种面向自动驾驶的视觉语言模型（VLM），是为CARLA自动驾驶挑战2.0开发的。CarLLaVA使用了LLaVA VLM的视觉编码器和LLaMA架构作为骨干，仅使用相机输入就实现了最先进的闭环驾驶性能，而无需复杂或昂贵的标签。此外，我们展示了关于预测驾驶输出的语言评论的初步结果。CarLLaVA使用了路径预测和航点的半解缠输出表示，从而既能够更好地进行横向控制，又能够更好地进行纵向控制。我们提出了一种高效的训练方法，可以在大型驾驶数据集上进行训练，而不会浪费计算资源在简单的数据上。CarLLaVA在CARLA自动驾驶挑战2.0的传感器赛道中排名第一，性能比之前的最先进技术提高了458％，比最佳的同时提交技术提高了32.6％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在开发一种用于自主驾驶的视觉语言模型，解决只使用摄像头输入而不需要复杂或昂贵标签的闭环驾驶问题。
关键思路

CarLLaVA使用LLaVA VLM的视觉编码器和LLaMA架构作为骨干，实现了最先进的闭环驾驶性能，并使用半解耦的输出表示预测路径和航点，以获得更好的横向和纵向控制。
其它亮点

该论文提出了一种高效的训练方法，可以在大型驾驶数据集上进行训练，而不会浪费计算资源。CarLLaVA在CARLA自主驾驶挑战赛2.0的传感器轨道中排名第一，超过了先前的最佳成果458％，并且比最佳竞争提交高出32.6％。
相关研究

在该领域的相关研究包括使用深度学习进行自主驾驶的各种方法，如基于神经网络的路径规划和端到端学习等。其中一些研究包括“End to End Learning for Self-Driving Cars”和“Learning a Driving Simulator”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问