OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning

简介

多模态大型语言模型（MLLMs）的进展引起了对基于LLM的自主驾驶代理的越来越多的兴趣，以利用它们强大的推理能力。然而，利用MLLM的强大推理能力来改进规划行为具有挑战性，因为规划需要超出2D推理的完整3D情境意识。为了应对这一挑战，我们的工作提出了一个综合框架，以实现代理模型和3D驾驶任务之间的强对齐。我们的框架以一种新颖的3D MLLM架构为起点，该架构使用稀疏查询将视觉表示提升和压缩到3D，并将其馈送到LLM中。这种基于查询的表示允许我们共同编码动态对象和静态地图元素（例如，交通车道），为3D感知-行动对齐提供了一种简洁的世界模型。我们进一步提出了OmniDrive-nuScenes，这是一个新的视觉问答数据集，通过包括场景描述、交通规则、3D接地、反事实推理、决策制定和规划等全面的视觉问答（VQA）任务来挑战模型对真正的3D情境意识。广泛的研究表明了所提出的架构的有效性以及VQA任务对于在复杂的3D场景中进行推理和规划的重要性。
图表
解决问题

本文旨在解决利用多模态大语言模型（MLLM）进行自动驾驶代理的规划行为时所遇到的挑战，因为规划需要超越二维推理的完整三维情境意识。
关键思路

本文提出了一个全面的框架，以实现代理模型和三维驾驶任务之间的强对齐。该框架从一种新颖的3D MLLM架构开始，使用稀疏查询将视觉表示提升和压缩到3D，然后将其馈送到LLM中。我们进一步提出了OmniDrive-nuScenes，这是一个新的视觉问答数据集，通过包括场景描述、交通规则、3D接地、反事实推理、决策和规划等全面的视觉问答（VQA）任务，挑战了模型对真实3D情境的情境感知能力。
其它亮点

本文提出的框架和数据集在复杂的3D场景中具有有效性，实验结果表明VQA任务对于推理和规划至关重要。
相关研究

最近的相关研究包括：《Multimodal Learning for Autonomous Driving: A Survey》、《End-to-end 3D Object Detection with Transformers》、《Learning to Plan with Uncertain Topological Maps》等。

OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning

评论