MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes

2024年05月23日
  • 简介
    虽然控制生成图像和视频的模型已经取得了显著的成功,但是对于三维场景的高质量模型,特别是在自动驾驶等无限制场景下,由于高昂的数据采集成本,仍然不够发展。在本文中,我们介绍了MagicDrive3D,一种新型的管道,用于可控的三维街景生成,支持多条件控制,包括BEV地图、三维物体和文本描述。与之前在训练生成模型之前重建的方法不同,MagicDrive3D首先训练视频生成模型,然后从生成的数据中进行重建。这种创新的方法实现了易于控制的生成和静态场景获取,从而实现了高质量的场景重建。为了解决生成内容中的小错误,我们提出了可变形的高斯光斑,具有单目深度初始化和外观建模,以管理视点之间的曝光差异。在nuScenes数据集上验证后,MagicDrive3D生成了多样化、高质量的三维驾驶场景,支持任意视角渲染,并增强了BEV分割等下游任务。我们的结果展示了该框架的优越性能,展示了其在自动驾驶模拟和其他领域的变革潜力。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文旨在解决3D场景生成中数据获取成本高的问题,提出了一种支持多条件控制的3D街景生成管道MagicDrive3D
  • 关键思路
    MagicDrive3D首先训练视频生成模型,然后从生成的数据中进行重建,实现易于控制的生成和静态场景获取,同时提出了可变形高斯喷洒技术以处理视角的曝光差异,最终在nuScenes数据集上获得了优秀的表现
  • 其它亮点
    论文提出了一种创新的方法,即先生成数据再进行重建,同时使用可变形高斯喷洒技术解决了生成内容中的小错误,实验结果表明该方法在3D场景生成方面表现优异
  • 相关研究
    近期相关研究包括:1. Learning to Generate 3D Scenes with Object-centric Hierarchies and Spatial Attention; 2. 3D Scene Generation with Transformers; 3. Learning to Generate 3D Scenes Through Compositional Reasoning and 3D Rendering
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问