PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning

2024年06月03日
  • 简介
    车辆运动规划是自动驾驶技术的重要组成部分。目前基于规则的车辆运动规划方法在常见场景下表现良好,但在长尾场景下普适性较差。同时,基于学习的方法在大规模闭环场景下还没有超越基于规则的方法。为了解决这些问题,我们提出了PlanAgent,这是一个基于多模态大语言模型(MLLM)的中间到中间规划系统。MLLM作为认知代理,引入了人类般的知识、可解释性和常识推理到闭环规划中。具体而言,PlanAgent通过三个核心模块利用MLLM的能力。第一个是环境转换模块,将环境构建成俯视图地图和基于车道图的文本描述作为输入。第二个是推理引擎模块,引入了从场景理解到横向和纵向运动指令的层次化思路,最终生成规划器代码。最后,集成了反思模块,用于模拟和评估生成的规划器,以减少MLLM的不确定性。PlanAgent具有MLLM的常识推理和泛化能力,使其能够有效地处理常见和复杂的长尾场景。我们在大规模且具有挑战性的nuPlan基准测试上评估了我们提出的PlanAgent。一系列综合实验令人信服地证明了PlanAgent在闭环运动规划任务中优于现有的最先进方法。代码将很快发布。
  • 图表
  • 解决问题
    本文旨在提出一种基于多模态大语言模型(MLLM)的中间规划系统PlanAgent,以解决自动驾驶技术中的车辆运动规划问题。具体而言,该系统试图解决当前基于规则的方法难以泛化到长尾情况的问题,以及学习方法在大规模闭环场景中性能不如基于规则的方法的问题。
  • 关键思路
    PlanAgent利用MLLM作为认知代理,将人类的知识、可解释性和常识推理引入到闭环规划中。该系统由三个核心模块组成:环境转换模块、推理引擎模块和反思模块。其中,环境转换模块将环境构建成鸟瞰图和基于车道图的文本描述作为输入,推理引擎模块则引入了从场景理解到横向和纵向运动指令的分层思维,最终生成规划器代码。最后,反思模块用于模拟和评估生成的规划器,以减少MLLM的不确定性。
  • 其它亮点
    本文的亮点在于PlanAgent具有MLLM的常识推理和泛化能力,能够有效地解决常见和复杂的长尾情况。该系统在大规模且具有挑战性的nuPlan基准测试中进行了评估,实验结果表明PlanAgent在闭环运动规划任务中优于现有的最先进方法。作者将很快发布代码。
  • 相关研究
    近期在该领域的相关研究包括:《End-to-End Learning of Driving Models from Large-Scale Video Datasets》、《Learning to Drive in a Day》、《Learning a Driving Simulator》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论