- 简介我们提供了一个清醒的视角,探讨了多模态大语言模型(MLLMs)在自动驾驶领域的应用,并挑战/验证了一些常见的假设,重点关注它们在封闭环控制环境下通过图像/帧序列推理和解释动态驾驶场景的能力。尽管像GPT-4V这样的MLLMs取得了显著进展,但它们在复杂的动态驾驶环境中的表现仍然未经大规模测试,需要进行广泛的探索。我们进行了一项全面的实验研究,从固定车内摄像头的视角评估各种MLLMs作为驾驶世界模型的能力。我们的研究结果显示,尽管这些模型能够熟练地解释单个图像,但它们在合成描绘动态行为的帧之间的连贯叙述或逻辑序列方面存在显著困难。实验表明,在预测(i)基本车辆动力学(前进/后退、加速/减速、向左或向右转);(ii)与其他道路行为者的互动(例如,识别超速的车辆或重车流);(iii)轨迹规划;以及(iv)开放式动态场景推理方面存在相当大的不准确性,这表明模型的训练数据存在偏差。为了实现这项实验研究,我们引入了一个专门的模拟器DriveSim,旨在生成多样化的驾驶场景,为评估MLLMs在驾驶领域提供平台。此外,我们还提供了完整的开源代码和一个新的数据集“Eval-LLM-Drive”,用于评估MLLMs在驾驶领域的应用。我们的研究结果凸显了目前最先进的MLLMs在实时动态环境中的能力存在重大差距,强调了需要增强基础模型以提高它们在实际动态环境中的适用性。
- 图表
- 解决问题本论文旨在探究Multimodal Large Language Models(MLLMs)在自动驾驶领域中的应用,特别是它们在理解动态驾驶场景中的表现能力,以及是否存在一些常见的假设需要被挑战或验证。尽管像GPT-4V这样的MLLMs已经取得了显著进展,但它们在复杂的、动态的驾驶环境中的表现仍然没有得到充分的测试,需要进一步研究。
- 关键思路本论文通过对各种MLLMs作为驾驶世界模型的能力进行全面的实验研究,发现这些模型虽然能够熟练地解释单个图像,但在综合描述动态行为的帧序列方面存在显著困难。实验结果表明,这些模型在预测基本车辆动力学、与其他道路参与者的交互、轨迹规划以及开放式动态场景推理方面存在相当大的误差,这表明模型的训练数据存在偏差,需要改进。
- 其它亮点本论文介绍了一个专门设计用于生成各种驾驶场景的模拟器DriveSim,为评估MLLMs在驾驶领域的应用提供了平台。此外,论文还贡献了完整的开源代码和一个新的数据集“Eval-LLM-Drive”,用于评估MLLMs在驾驶领域的性能。实验结果揭示了当前最先进的MLLMs在动态驾驶环境中的能力存在重大差距,需要改进。
- 最近在这个领域中,还有一些相关的研究正在进行,例如“End-to-End Learning for Autonomous Driving using an Augmented Vector Space Model”和“Learning to Drive using Unsupervised Learning from Video”等。
沙发等你来抢
去评论
评论
沙发等你来抢