Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?

2024年05月28日
  • 简介
    快速发展的自动驾驶(AD)任务朝着端到端的方式迈出了重要的一步,特别是在利用视觉语言模型(VLM)方面,这些模型整合了强大的逻辑推理和认知能力,使得全面的端到端规划成为可能。然而,这些基于VLM的方法往往会整合2D视觉分词器和一个大型语言模型(LLM)用于自车规划,缺乏3D几何先验作为可靠规划的基石。自然地,这种观察引发了一个关键问题:一个2D分词的LLM能否准确地感知3D环境?我们对当前基于VLM的方法在3D物体检测、矢量地图构建和环境描述方面进行了评估,结果表明,不幸的是,答案是否定的。换句话说,2D分词的LLM无法提供可靠的自动驾驶。为此,我们引入了DETR风格的3D感知器作为3D分词器,将LLM与一层线性投影器相连接。这种简单而优雅的策略被称为Atlas,利用了3D物理世界的内在先验,使其能够同时处理高分辨率的多视角图像并采用时空建模。尽管它很简单,但Atlas在nuScenes数据集上的3D检测和自车规划任务中表现出了卓越的性能,证明3D分词的LLM是可靠自动驾驶的关键。代码和数据集将会发布。
  • 作者讲解
  • 图表
  • 解决问题
    如何提高自动驾驶的可靠性?
  • 关键思路
    通过使用DETR-style 3D perceptrons作为3D tokenizers,将LLM与线性投影器相连,以解决2D-tokenized LLM无法准确感知3D环境的问题。
  • 其它亮点
    论文提出的解决方案名为Atlas,能够同时处理高分辨率的多视角图像并进行时空建模,实验结果表明其在3D检测和自车规划任务中表现优异。论文提供了代码和数据集。
  • 相关研究
    最近相关的研究包括End-to-End Learning for Autonomous Driving: A Survey和Vision-Based High-Speed Driving with a Deep Dynamic Observer等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问