- 简介自动驾驶行业越来越采用从感官输入到最小化系统设计中的人类偏见的端到端学习。然而,传统的端到端驾驶模型由于训练分布中罕见或未见的输入而遭受长尾事件的影响。为了解决这个问题,我们提出了TOKEN,一种新颖的多模态大型语言模型(MM-LLM),将世界分解成对象级知识,使LLM的推理能力更好地用于增强自动驾驶车辆在长尾场景下的规划。TOKEN通过利用传统的端到端驾驶模型来产生场景的简洁和语义丰富的表示,有效地缓解了数据稀缺性和低效的标记化问题,并通过有意识的表示和推理对齐训练阶段优化了LLM规划的兼容性。我们的结果表明,TOKEN在基础知识、推理和规划能力方面表现出色,在长尾场景中,轨迹L2误差减少了27%,碰撞率减少了39%,优于现有框架。此外,我们的工作强调了表示对齐和结构化推理对激发MM-LLM的常识推理能力以实现有效规划的重要性。
-
- 图表
- 解决问题论文旨在解决自动驾驶中长尾事件的问题,通过提出TOKEN,一种基于多模态大语言模型的方案,将世界划分为对象级别的知识,以提高自主车辆规划在长尾场景中的性能。
- 关键思路TOKEN将传统的端到端驾驶模型与大语言模型相结合,通过优化表征和推理对齐训练阶段,实现场景的压缩和语义增强表示,从而提高自主车辆规划的性能。
- 其它亮点论文的实验表明,TOKEN在基于长尾场景的自主车辆规划中具有出色的基础、推理和规划能力,相比现有框架,L2误差降低了27%,碰撞率降低了39%。此外,论文还强调了表示对齐和结构化推理在激发多模态大语言模型通用推理能力方面的重要性。
- 最近的相关研究包括:1)多模态大语言模型在自主驾驶中的应用;2)端到端驾驶模型中的长尾问题解决方案;3)自主车辆规划中的基于语义的场景理解。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流