DriVLMe: Enhancing LLM-based Autonomous Driving Agents with Embodied and Social Experiences

向作者提问

NEW

简介

最近基础模型的进展已经为自动驾驶开启了新的前景，但这些研究的实验设置是初步的、过于简化的，并且未能捕捉到人类环境中真实驾驶场景的复杂性。尚未探索基础模型代理是否能够处理具有自由对话的长期导航任务，并应对由环境动态或任务变化引起的意外情况。为了探索面对以上挑战时基础模型的能力和界限，我们介绍了基于视频语言模型的DriVLMe代理，以促进人类和自主车辆之间的自然有效沟通，实现环境感知和导航。我们从模拟环境中的具身经验和真实人类对话中的社交经验中开发了DriVLMe。虽然DriVLMe在开环基准测试和闭环人类研究中展现了竞争性能力，但我们也揭示了一些限制和挑战，包括不可接受的推断时间、训练数据不平衡、有限的视觉理解、多轮交互的挑战、基于机器人经验的简化语言生成以及处理环境动态和任务变化等即时意外情况的困难。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探索基于视频语言模型的代理程序在自动驾驶中的应用，解决长期导航任务、自由对话和处理环境动态等挑战的能力和局限性。
关键思路

通过基于模拟环境和真实对话的经验，开发了DriVLMe代理程序，实现了人类和自动驾驶车辆之间的自然有效沟通。然而，该代理程序还存在一些限制和挑战，需要进一步研究和改进。
其它亮点

论文使用了基于视频和语言的模型，提出了DriVLMe代理程序，旨在解决自动驾驶中的长期导航任务、自由对话和处理环境动态等挑战。实验表明DriVLMe在开环基准测试和闭环人类研究中表现出竞争性能。但是，该代理程序还存在一些限制和挑战，包括推理时间过长、训练数据不平衡、视觉理解能力有限、多轮交互存在困难等。
相关研究

与此论文相关的研究包括：《End-to-End Learning of Driving Models from Large-Scale Video Datasets》、《Learning to Navigate in Cities Without a Map》、《ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问