- 简介多模态大型语言模型(MLLMs)的进展引起了对基于LLM的自主驾驶代理的越来越多的兴趣,以利用它们强大的推理能力。然而,利用MLLM的强大推理能力来改进规划行为具有挑战性,因为规划需要超出2D推理的完整3D情境意识。为了应对这一挑战,我们的工作提出了一个综合框架,以实现代理模型和3D驾驶任务之间的强对齐。我们的框架以一种新颖的3D MLLM架构为起点,该架构使用稀疏查询将视觉表示提升和压缩到3D,并将其馈送到LLM中。这种基于查询的表示允许我们共同编码动态对象和静态地图元素(例如,交通车道),为3D感知-行动对齐提供了一种简洁的世界模型。我们进一步提出了OmniDrive-nuScenes,这是一个新的视觉问答数据集,通过包括场景描述、交通规则、3D接地、反事实推理、决策制定和规划等全面的视觉问答(VQA)任务来挑战模型对真正的3D情境意识。广泛的研究表明了所提出的架构的有效性以及VQA任务对于在复杂的3D场景中进行推理和规划的重要性。
- 图表
- 解决问题本文旨在解决利用多模态大语言模型(MLLM)进行自动驾驶代理的规划行为时所遇到的挑战,因为规划需要超越二维推理的完整三维情境意识。
- 关键思路本文提出了一个全面的框架,以实现代理模型和三维驾驶任务之间的强对齐。该框架从一种新颖的3D MLLM架构开始,使用稀疏查询将视觉表示提升和压缩到3D,然后将其馈送到LLM中。我们进一步提出了OmniDrive-nuScenes,这是一个新的视觉问答数据集,通过包括场景描述、交通规则、3D接地、反事实推理、决策和规划等全面的视觉问答(VQA)任务,挑战了模型对真实3D情境的情境感知能力。
- 其它亮点本文提出的框架和数据集在复杂的3D场景中具有有效性,实验结果表明VQA任务对于推理和规划至关重要。
- 最近的相关研究包括:《Multimodal Learning for Autonomous Driving: A Survey》、《End-to-end 3D Object Detection with Transformers》、《Learning to Plan with Uncertain Topological Maps》等。
沙发等你来抢
去评论
评论
沙发等你来抢