VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving

简介

本文旨在探讨Vision Language Models (VLMs)在提升自动驾驶系统可理解性方面的潜力，并介绍了一种名为VLM-MPC的闭环自动驾驶控制器，该控制器将VLM用于高层决策，将模型预测控制器（MPC）用于低层车辆控制。VLM-MPC系统结构上分为两个异步组件：上层VLM和下层MPC。上层VLM基于前置摄像头图像、自车状态、交通环境条件和参考记忆生成驾驶参数，用于控制下层车辆控制。下层MPC根据这些参数实时控制车辆，考虑到发动机滞后并为整个系统提供状态反馈。基于nuScenes数据集的实验验证了VLM-MPC系统在各种情况下（如夜间、雨天、交叉口）的有效性。结果表明，VLM-MPC系统在安全性和驾驶舒适性方面始终优于基线模型。通过比较不同天气条件和情景下的行为，我们证明了VLM理解环境并进行合理推断的能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提高自动驾驶系统的可理解性，将视觉语言模型（VLM）应用于自动驾驶控制器中，结合模型预测控制器（MPC）实现高低层控制。
关键思路

将VLM与MPC相结合，实现自动驾驶控制器的闭环控制，VLM负责高层决策，MPC负责低层车辆控制。
其它亮点

实验验证了VLM-MPC系统在不同场景下的有效性，能够提高安全性和驾驶舒适度。论文使用了nuScenes数据集，证明了VLM具有理解环境和做出合理推断的能力。
相关研究

近期的相关研究包括：1. Vision-based autonomous driving using end-to-end deep reinforcement learning；2. A survey of motion planning and control techniques for self-driving urban vehicles；3. Multi-agent reinforcement learning for autonomous driving: A survey of recent approaches.

VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving

提问交流

提问交流