- 简介人类级别的驾驶是自动驾驶的终极目标。传统方法将自动驾驶视为一个感知-预测-规划的框架,但它们的系统没有利用人类固有的推理能力和经验知识。本文提出了一种基本的范式转变,从当前的流程中转向利用大型语言模型(LLMs)作为认知代理,将人类智能整合到自动驾驶系统中。我们的方法被称为Agent-Driver,通过引入一个可通过函数调用访问的多功能工具库、一个决策制定的常识和经验知识的认知记忆以及一个能够进行思维链推理、任务规划、运动规划和自我反思的推理引擎,改变了传统的自动驾驶流程。由LLMs提供支持,我们的Agent-Driver具有直观的常识和强大的推理能力,从而实现了更加细致、类似于人类的自动驾驶方法。我们在大规模的nuScenes基准测试中评估了我们的方法,广泛的实验证明了我们的Agent-Driver在性能上显著优于现有的驾驶方法。我们的方法还展示了比这些方法更好的可解释性和少样本学习能力。项目页面:\href{https://github.com/USC-GVL/Agent-Driver/blob/main/index.html}{这里}。
- 图表
- 解决问题论文试图解决如何将人类智能融入自动驾驶系统的问题,以实现更加人性化的自动驾驶。
- 关键思路论文提出了一种基于大型语言模型(LLMs)的认知代理方案,将传统的自动驾驶流程转换为通过函数调用访问的多功能工具库、用于决策制定的常识和经验知识的认知记忆,以及能够进行思维链推理、任务规划、动作规划和自我反思的推理引擎。通过LLMs赋予Agent-Driver直观的常识和强大的推理能力,从而实现更加人性化的自动驾驶。
- 其它亮点论文的实验使用了大规模的nuScenes基准测试,并证明了Agent-Driver在性能上显著优于现有的自动驾驶方法,并且具有更好的可解释性和少样本学习能力。此外,论文还提供了开源代码。
- 近期在这个领域中,还有一些相关的研究,如《End-to-End Learning of Driving Models from Large-scale Video Datasets》、《ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst》等。


提问交流