Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?

简介

快速发展的自动驾驶（AD）任务朝着端到端的方式迈出了重要的一步，特别是在利用视觉语言模型（VLM）方面，这些模型整合了强大的逻辑推理和认知能力，使得全面的端到端规划成为可能。然而，这些基于VLM的方法往往会整合2D视觉分词器和一个大型语言模型（LLM）用于自车规划，缺乏3D几何先验作为可靠规划的基石。自然地，这种观察引发了一个关键问题：一个2D分词的LLM能否准确地感知3D环境？我们对当前基于VLM的方法在3D物体检测、矢量地图构建和环境描述方面进行了评估，结果表明，不幸的是，答案是否定的。换句话说，2D分词的LLM无法提供可靠的自动驾驶。为此，我们引入了DETR风格的3D感知器作为3D分词器，将LLM与一层线性投影器相连接。这种简单而优雅的策略被称为Atlas，利用了3D物理世界的内在先验，使其能够同时处理高分辨率的多视角图像并采用时空建模。尽管它很简单，但Atlas在nuScenes数据集上的3D检测和自车规划任务中表现出了卓越的性能，证明3D分词的LLM是可靠自动驾驶的关键。代码和数据集将会发布。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

如何提高自动驾驶的可靠性？

关键思路

通过使用DETR-style 3D perceptrons作为3D tokenizers，将LLM与线性投影器相连，以解决2D-tokenized LLM无法准确感知3D环境的问题。

其它亮点

论文提出的解决方案名为Atlas，能够同时处理高分辨率的多视角图像并进行时空建模，实验结果表明其在3D检测和自车规划任务中表现优异。论文提供了代码和数据集。

Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving?

提问交流

提问交流