DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

2024年10月17日
  • 简介
    闭环仿真对于推进端到端自动驾驶系统至关重要。当前的传感器仿真方法,如NeRF和3DGS,主要依赖于与训练数据分布高度一致的条件,这些条件大多局限于前向驾驶场景。因此,这些方法在渲染复杂操作(例如车道变换、加速、减速)时面临限制。最近在自动驾驶世界模型方面的进展展示了生成多样化驾驶视频的潜力。然而,这些方法仍然仅限于2D视频生成,本质上缺乏捕捉动态驾驶环境复杂性的时空一致性。在本文中,我们介绍了 *DriveDreamer4D*,该方法通过利用世界模型先验增强了4D驾驶场景表示。具体来说,我们利用世界模型作为数据生成器,基于真实驾驶数据合成新的轨迹视频。值得注意的是,我们显式地利用结构化条件来控制前景和背景元素的时空一致性,从而使生成的数据更符合交通约束。据我们所知,*DriveDreamer4D* 是首个利用视频生成模型来改进驾驶场景中4D重建的方法。实验结果表明,*DriveDreamer4D* 在新轨迹视图下的生成质量显著提升,相对于PVG、$\text{S}^3$Gaussian 和 Deformable-GS 的FID相对改善分别为24.5%、39.0% 和 10.5%。此外,*DriveDreamer4D* 显著提高了驾驶代理的时空一致性,这一点通过全面的用户研究以及NTA-IoU指标的相对增加20.3%、42.0% 和 13.7% 得以验证。
  • 图表
  • 解决问题
    该论文旨在解决当前传感器模拟方法在处理复杂驾驶操作时的局限性,特别是这些方法主要依赖于与训练数据分布紧密相关的条件,如前向驾驶场景,无法有效渲染复杂的驾驶操作(例如变道、加速和减速)。此外,现有的自动驾驶世界模型虽然能够生成多样的驾驶视频,但这些模型仍然局限于2D视频生成,缺乏动态驾驶环境所需的时空一致性。
  • 关键思路
    论文提出了一种名为DriveDreamer4D的新方法,通过利用世界模型先验来增强4D驾驶场景表示。具体来说,该方法利用世界模型作为数据生成器,基于真实驾驶数据合成新的轨迹视频,并通过结构化条件控制前景和背景元素的时空一致性,确保生成的数据符合交通规则。这是首次将视频生成模型应用于改善驾驶场景中的4D重建。
  • 其它亮点
    实验结果显示,DriveDreamer4D在新型轨迹视图下的生成质量显著提高,相对于PVG、S³Gaussian和Deformable-GS分别提高了24.5%、39.0%和10.5%的FID分数。此外,DriveDreamer4D在提升驾驶代理的时空一致性方面表现突出,NTA-IoU指标相对提高了20.3%、42.0%和13.7%。论文还进行了全面的用户研究,进一步验证了方法的有效性。目前没有提到是否有开源代码,但未来的工作可以考虑开放源代码以促进更广泛的研究。
  • 相关研究
    近期在这个领域中,相关研究包括:1) NeRF(Neural Radiance Fields)用于高保真度的3D场景重建;2) 3DGS(3D Generative Scene)用于生成逼真的3D驾驶场景;3) PVG(Probabilistic Video Generation)用于生成高质量的驾驶视频;4) S³Gaussian(Sparse Spatiotemporal Gaussian Processes)用于时空一致性的视频生成;5) Deformable-GS(Deformable Generative Scene)用于动态场景的生成。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论