- 简介自动驾驶中的场景模拟因其生成定制数据的巨大潜力而受到广泛关注。然而,现有的可编辑场景模拟方法在用户交互效率、多摄像机逼真渲染和外部数字资产集成方面存在局限性。为了解决这些挑战,本文介绍了ChatSim,这是第一个通过自然语言命令与外部数字资产实现可编辑的逼真3D驾驶场景模拟的系统。为了实现高度灵活的编辑,ChatSim利用了大型语言模型(LLM)代理协作框架。为了生成逼真的结果,ChatSim采用了一种新颖的多摄像机神经辐射场方法。此外,为了释放广泛高质量数字资产的潜力,ChatSim采用了一种新颖的多摄像机照明估计方法,以实现场景一致的资产渲染。我们在Waymo开放数据集上进行的实验表明,ChatSim可以处理复杂的语言命令并生成相应的逼真场景视频。
-
- 图表
- 解决问题本论文旨在解决自动驾驶中场景模拟的可编辑性、效率、多相机真实渲染和外部数字资产集成等问题。
- 关键思路本论文提出了ChatSim系统,通过自然语言命令与外部数字资产实现可编辑的照片级真实3D驾驶场景模拟。ChatSim利用大型语言模型代理协作框架实现高命令灵活性的编辑,采用新型多相机神经辐射场方法生成照片级真实结果,并利用新型多相机照明估计方法实现场景一致性资产渲染。
- 其它亮点本论文的亮点包括:采用自然语言命令与外部数字资产实现场景模拟、使用大型语言模型代理协作框架实现高命令灵活性的编辑、采用新型多相机神经辐射场方法生成照片级真实结果、利用新型多相机照明估计方法实现场景一致性资产渲染。实验在Waymo Open Dataset上进行,证明了ChatSim可以处理复杂的自然语言命令并生成相应的照片级真实场景视频。
- 最近的相关研究包括:《DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving》、《End-to-End Learning of Driving Models from Large-Scale Video Datasets》、《Learning a Driving Simulator》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流