MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes

简介

虽然控制生成图像和视频的模型已经取得了显著的成功，但是对于三维场景的高质量模型，特别是在自动驾驶等无限制场景下，由于高昂的数据采集成本，仍然不够发展。在本文中，我们介绍了MagicDrive3D，一种新型的管道，用于可控的三维街景生成，支持多条件控制，包括BEV地图、三维物体和文本描述。与之前在训练生成模型之前重建的方法不同，MagicDrive3D首先训练视频生成模型，然后从生成的数据中进行重建。这种创新的方法实现了易于控制的生成和静态场景获取，从而实现了高质量的场景重建。为了解决生成内容中的小错误，我们提出了可变形的高斯光斑，具有单目深度初始化和外观建模，以管理视点之间的曝光差异。在nuScenes数据集上验证后，MagicDrive3D生成了多样化、高质量的三维驾驶场景，支持任意视角渲染，并增强了BEV分割等下游任务。我们的结果展示了该框架的优越性能，展示了其在自动驾驶模拟和其他领域的变革潜力。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

论文旨在解决3D场景生成中数据获取成本高的问题，提出了一种支持多条件控制的3D街景生成管道MagicDrive3D
关键思路

MagicDrive3D首先训练视频生成模型，然后从生成的数据中进行重建，实现易于控制的生成和静态场景获取，同时提出了可变形高斯喷洒技术以处理视角的曝光差异，最终在nuScenes数据集上获得了优秀的表现
其它亮点

论文提出了一种创新的方法，即先生成数据再进行重建，同时使用可变形高斯喷洒技术解决了生成内容中的小错误，实验结果表明该方法在3D场景生成方面表现优异
相关研究

近期相关研究包括：1. Learning to Generate 3D Scenes with Object-centric Hierarchies and Spatial Attention; 2. 3D Scene Generation with Transformers; 3. Learning to Generate 3D Scenes Through Compositional Reasoning and 3D Rendering

MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes

提问交流

提问交流