Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents

向作者提问

NEW

简介

自动驾驶中的场景模拟因其生成定制数据的巨大潜力而受到广泛关注。然而，现有的可编辑场景模拟方法在用户交互效率、多摄像机逼真渲染和外部数字资产集成方面存在局限性。为了解决这些挑战，本文介绍了ChatSim，这是第一个通过自然语言命令与外部数字资产实现可编辑的逼真3D驾驶场景模拟的系统。为了实现高度灵活的编辑，ChatSim利用了大型语言模型（LLM）代理协作框架。为了生成逼真的结果，ChatSim采用了一种新颖的多摄像机神经辐射场方法。此外，为了释放广泛高质量数字资产的潜力，ChatSim采用了一种新颖的多摄像机照明估计方法，以实现场景一致的资产渲染。我们在Waymo开放数据集上进行的实验表明，ChatSim可以处理复杂的语言命令并生成相应的逼真场景视频。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决自动驾驶中场景模拟的可编辑性、效率、多相机真实渲染和外部数字资产集成等问题。
关键思路

本论文提出了ChatSim系统，通过自然语言命令与外部数字资产实现可编辑的照片级真实3D驾驶场景模拟。ChatSim利用大型语言模型代理协作框架实现高命令灵活性的编辑，采用新型多相机神经辐射场方法生成照片级真实结果，并利用新型多相机照明估计方法实现场景一致性资产渲染。
其它亮点

本论文的亮点包括：采用自然语言命令与外部数字资产实现场景模拟、使用大型语言模型代理协作框架实现高命令灵活性的编辑、采用新型多相机神经辐射场方法生成照片级真实结果、利用新型多相机照明估计方法实现场景一致性资产渲染。实验在Waymo Open Dataset上进行，证明了ChatSim可以处理复杂的自然语言命令并生成相应的照片级真实场景视频。
相关研究

最近的相关研究包括：《DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving》、《End-to-End Learning of Driving Models from Large-Scale Video Datasets》、《Learning a Driving Simulator》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问