GenXD: Generating Any 3D and 4D Scenes

向作者提问

NEW

简介

近期在二维视觉生成方面取得了显著的成功。然而，三维和四维生成在实际应用中仍然具有挑战性，主要是由于缺乏大规模的四维数据和有效的模型设计。在本文中，我们提出通过利用日常生活中常见的摄像机和物体运动，共同研究一般的三维和四维生成问题。由于社区中缺乏真实的四维数据，我们首先提出了一种数据整理管道，从视频中获取摄像机姿态和物体运动强度。基于这一管道，我们引入了一个大规模的真实世界四维场景数据集：CamVid-30K。通过利用所有三维和四维数据，我们开发了我们的框架GenXD，该框架能够生成任何三维或四维场景。我们提出了多视图-时序模块，这些模块可以分离摄像机和物体的运动，从而无缝地从三维和四维数据中学习。此外，GenXD采用掩码潜在条件，支持多种条件视图。GenXD可以生成遵循摄像机轨迹的视频，以及可以提升为三维表示的一致三维视图。我们在各种真实世界和合成数据集上进行了广泛的评估，展示了GenXD在三维和四维生成方面的有效性和多功能性，相比之前的方法有显著优势。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

该论文试图解决3D和4D生成在实际应用中的挑战，特别是由于缺乏大规模4D数据和有效的模型设计导致的问题。这是一个在计算机视觉和生成模型领域内长期存在的问题，但通过引入新的数据集和模型框架，论文尝试提供一种新的解决方案。
关键思路

论文的关键思路是通过利用日常生活中常见的摄像头和物体运动，提出一个数据收集管道来获取视频中的相机姿态和物体运动强度，进而构建一个大规模的真实世界4D场景数据集CamVid-30K。基于此数据集，开发了一个名为GenXD的框架，该框架能够同时处理3D和4D数据，通过多视图-时间模块解耦相机和物体运动，支持多种条件视图的生成。
其它亮点

论文的亮点包括：1) 提出了一个创新的数据收集管道，能够从现有视频中提取4D信息；2) 构建了大规模的4D场景数据集CamVid-30K；3) 开发了GenXD框架，能够生成遵循相机轨迹的视频和一致的3D视图；4) 在多个真实世界和合成数据集上进行了广泛的评估，证明了GenXD的有效性和通用性。此外，论文提供了开源代码，便于后续研究者复现和进一步探索。
相关研究

近年来，在3D和4D生成领域，有许多相关研究。例如，《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》提出了使用神经辐射场表示场景以生成新视角的方法；《ECCV 2020: Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer》探讨了使用可微渲染器预测3D对象的技术；《CVPR 2021: Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes》则研究了动态场景的空间时间视图合成。这些研究为GenXD的发展提供了重要的基础和灵感。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问