OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning

2024年05月02日
  • 简介
    多模态大型语言模型(MLLMs)的进展引起了对基于LLM的自主驾驶代理的越来越多的兴趣,以利用它们强大的推理能力。然而,利用MLLM的强大推理能力来改进规划行为具有挑战性,因为规划需要超出2D推理的完整3D情境意识。为了应对这一挑战,我们的工作提出了一个综合框架,以实现代理模型和3D驾驶任务之间的强对齐。我们的框架以一种新颖的3D MLLM架构为起点,该架构使用稀疏查询将视觉表示提升和压缩到3D,并将其馈送到LLM中。这种基于查询的表示允许我们共同编码动态对象和静态地图元素(例如,交通车道),为3D感知-行动对齐提供了一种简洁的世界模型。我们进一步提出了OmniDrive-nuScenes,这是一个新的视觉问答数据集,通过包括场景描述、交通规则、3D接地、反事实推理、决策制定和规划等全面的视觉问答(VQA)任务来挑战模型对真正的3D情境意识。广泛的研究表明了所提出的架构的有效性以及VQA任务对于在复杂的3D场景中进行推理和规划的重要性。
  • 图表
  • 解决问题
    本文旨在解决利用多模态大语言模型(MLLM)进行自动驾驶代理的规划行为时所遇到的挑战,因为规划需要超越二维推理的完整三维情境意识。
  • 关键思路
    本文提出了一个全面的框架,以实现代理模型和三维驾驶任务之间的强对齐。该框架从一种新颖的3D MLLM架构开始,使用稀疏查询将视觉表示提升和压缩到3D,然后将其馈送到LLM中。我们进一步提出了OmniDrive-nuScenes,这是一个新的视觉问答数据集,通过包括场景描述、交通规则、3D接地、反事实推理、决策和规划等全面的视觉问答(VQA)任务,挑战了模型对真实3D情境的情境感知能力。
  • 其它亮点
    本文提出的框架和数据集在复杂的3D场景中具有有效性,实验结果表明VQA任务对于推理和规划至关重要。
  • 相关研究
    最近的相关研究包括:《Multimodal Learning for Autonomous Driving: A Survey》、《End-to-end 3D Object Detection with Transformers》、《Learning to Plan with Uncertain Topological Maps》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论