- 简介随着大型语言模型(LLMs)和视觉基础模型(VFMs)的出现,利用大型模型的多模态人工智能系统有潜力与人类一样感知真实世界、做出决策和控制工具。近几个月来,LLMs在自动驾驶和地图系统中引起了广泛关注。尽管其潜力巨大,但对于在LLM驾驶系统中应用的关键挑战、机遇和未来努力仍缺乏全面的理解。在本文中,我们对这个领域进行了系统的调查。首先介绍了多模态大型语言模型(MLLMs)的背景、使用LLMs进行多模态模型开发的情况以及自动驾驶的历史。然后,我们概述了现有的MLLM驾驶、交通和地图系统工具以及现有的数据集和基准。此外,我们总结了第一届WACV大型语言和视觉模型自动驾驶研讨会(LLVM-AD)的作品,这是关于LLMs在自动驾驶方面的首个研讨会。为了进一步推动该领域的发展,我们还讨论了使用MLLM在自动驾驶系统中需要解决的几个重要问题,这需要学术界和工业界共同解决。
- 图表
- 解决问题本文试图研究Multimodal Large Language Models (MLLMs)在自动驾驶系统中的应用,探讨这一领域的挑战、机遇和未来发展方向。
- 关键思路本文的关键思路是通过开发基于LLMs的多模态模型来实现自动驾驶和地图系统,同时讨论了在这一领域中使用MLLMs所面临的重要问题。相比当前领域的研究,本文的创新点在于将LLMs应用于自动驾驶领域,探索了MLLMs在自动驾驶中的潜在应用。
- 其它亮点本文概述了现有的MLLM工具和数据集,并总结了第一届WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD)的研究成果。实验是基于现有的数据集和工具进行的,但并没有提供开源代码。本文还讨论了使用MLLMs在自动驾驶系统中所面临的一些重要问题,如如何处理多模态数据、如何处理不确定性等。这些问题需要在学术界和工业界共同解决。
- 最近在这个领域中,还有一些相关的研究被进行,如Multimodal Sensor Fusion for Autonomous Driving: A Survey和Multimodal Sensor Fusion for Robust Perception: A Survey。
沙发等你来抢
去评论
评论
沙发等你来抢