On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

简介

自动驾驶技术的追求取决于感知、决策和控制系统的复杂集成。传统方法，无论是基于数据还是基于规则的方法，都受到了无法理解复杂驾驶环境和其他道路用户意图的限制。这一点在发展安全可靠的自动驾驶所必需的常识推理和细致的场景理解方面尤为严重。视觉语言模型（VLM）的出现代表了实现完全自动驾驶的新领域。本报告对最新的VLM技术GPT-4V(ision)及其在自动驾驶场景中的应用进行了详尽的评估。我们探讨了该模型理解和推理驾驶场景、做出决策以及最终扮演驾驶员角色的能力。我们的全面测试涵盖了从基本场景识别到复杂的因果推理和在不同条件下的实时决策。我们的研究结果表明，与现有的自动驾驶系统相比，GPT-4V在场景理解和因果推理方面表现出更高的性能。它展示了在真实驾驶环境中处理分布外场景、识别意图和做出明智决策的潜力。然而，仍然存在挑战，特别是在方向判断、交通信号识别、视觉定位和空间推理任务方面。这些限制强调了进一步研究和开发的必要性。该项目现已在GitHub上提供，供有兴趣的人访问和利用：\url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}。
图表
解决问题

论文旨在评估最新的视觉语言模型GPT-4V在自动驾驶场景下的应用，探索其理解驾驶场景、决策和行动的能力。论文试图解决当前自动驾驶技术在场景理解和复杂决策方面的瓶颈问题。
关键思路

论文的关键思路是使用最新的视觉语言模型GPT-4V来实现自动驾驶，该模型表现出在场景理解和因果推理方面优异的性能。相比现有的自动驾驶系统，该模型具有更好的处理场景外数据、识别意图、在真实驾驶环境下做出决策的能力。
其它亮点

论文通过全面的测试评估了GPT-4V在自动驾驶场景下的性能，包括基本场景识别、复杂因果推理和实时决策等方面。论文发现GPT-4V在场景理解和因果推理方面表现优异，具有处理场景外数据、识别意图、在真实驾驶环境下做出决策的潜力。然而，论文也指出该模型在方向判断、交通信号识别、视觉定位和空间推理等任务上仍存在局限性，需要进一步的研究和发展。论文的项目代码已经开源在GitHub上。
相关研究

最近在这个领域中，还有一些相关的研究。例如，一篇名为“End-to-End Learning of Driving Models from Large-Scale Video Datasets”的论文使用大规模视频数据集进行端到端的自动驾驶模型学习；另一篇名为“Learning to Drive from Simulation without Real World Labels”的论文则使用模拟数据进行自动驾驶学习。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论