- 简介从自车的驾驶轨迹合成照片级逼真的视觉观察是实现可扩展训练自动驾驶模型的关键一步。基于重建的方法通过驾驶日志创建3D场景,并通过神经渲染合成几何一致的驾驶视频,但其对昂贵的对象标注的依赖限制了它们在野外驾驶场景中的泛化能力。另一方面,生成模型可以以更泛化的方式合成动作条件的驾驶视频,但在保持3D视觉一致性方面常常遇到困难。在本文中,我们提出了DreamDrive,这是一种结合生成和重建优点的4D时空场景生成方法,用于合成具有3D一致性的泛化4D驾驶场景和动态驾驶视频。 具体来说,我们利用视频扩散模型的生成能力来合成一系列视觉参考,并通过一种新颖的混合高斯表示将其提升到4D。给定一个驾驶轨迹后,我们通过高斯点云渲染生成3D一致的驾驶视频。生成先验的使用使我们的方法能够从野外驾驶数据中生成高质量的4D场景,而神经渲染则确保从4D场景生成3D一致的视频。在nuScenes和街景图像上的大量实验表明,DreamDrive可以生成可控且泛化的4D驾驶场景,以高保真度和3D一致性合成驾驶视频的新视角,以自监督方式分解静态和动态元素,并增强自动驾驶的感知和规划任务。
- 图表
- 解决问题该论文试图解决自驾车模型训练中合成逼真视觉观察的问题,特别是如何从驾驶轨迹生成具有3D一致性的高质量动态驾驶视频。现有方法要么依赖昂贵的对象注释,要么在保持3D视觉一致性方面表现不佳,因此难以泛化到实际驾驶场景。
- 关键思路DreamDrive 结合了生成模型和重建方法的优点,提出了一个4D时空场景生成框架。它利用视频扩散模型生成视觉参考序列,并通过混合高斯表示将其提升为4D场景。然后使用高斯点阵渲染技术根据给定的驾驶轨迹生成3D一致的驾驶视频。这种方法不仅能够处理野外驾驶数据,还能确保视频的3D一致性。
- 其它亮点1. 提出了一个新的4D场景生成方法,能够在没有详细注释的情况下生成高质量、泛化的驾驶场景。 2. 使用神经渲染技术保证了视频的3D一致性,提高了视觉质量。 3. 实验设计包括nuScenes和街景图像数据集,展示了方法的有效性和泛化能力。 4. 开源代码使其他研究者可以复现实验结果并进一步改进模型。 5. 研究表明该方法可以在感知和规划任务中增强自动驾驶系统的性能。
- 最近的相关研究包括: 1. Reconstruction-based methods: 如NeRF(Neural Radiance Fields)用于从多视角图像中重建3D场景。 2. Generative models: 如Video GANs 和 Video Diffusion Models 用于生成动作条件下的视频。 3. Hybrid approaches: 如EG3D 和 Plenoxels 结合了生成与重建的优势,但主要集中在静态场景上。 4. 自动驾驶领域内的工作如AVSynth 和 SceneGraphNet 也探索了类似问题,但 DreamDrive 在4D场景生成和3D一致性方面有所创新。
沙发等你来抢
去评论
评论
沙发等你来抢