- 简介近期在二维视觉生成方面取得了显著的成功。然而,三维和四维生成在实际应用中仍然具有挑战性,主要是由于缺乏大规模的四维数据和有效的模型设计。在本文中,我们提出通过利用日常生活中常见的摄像机和物体运动,共同研究一般的三维和四维生成问题。由于社区中缺乏真实的四维数据,我们首先提出了一种数据整理管道,从视频中获取摄像机姿态和物体运动强度。基于这一管道,我们引入了一个大规模的真实世界四维场景数据集:CamVid-30K。通过利用所有三维和四维数据,我们开发了我们的框架GenXD,该框架能够生成任何三维或四维场景。我们提出了多视图-时序模块,这些模块可以分离摄像机和物体的运动,从而无缝地从三维和四维数据中学习。此外,GenXD采用掩码潜在条件,支持多种条件视图。GenXD可以生成遵循摄像机轨迹的视频,以及可以提升为三维表示的一致三维视图。我们在各种真实世界和合成数据集上进行了广泛的评估,展示了GenXD在三维和四维生成方面的有效性和多功能性,相比之前的方法有显著优势。
-
- 图表
- 解决问题该论文试图解决3D和4D生成在实际应用中的挑战,特别是由于缺乏大规模4D数据和有效的模型设计导致的问题。这是一个在计算机视觉和生成模型领域内长期存在的问题,但通过引入新的数据集和模型框架,论文尝试提供一种新的解决方案。
- 关键思路论文的关键思路是通过利用日常生活中常见的摄像头和物体运动,提出一个数据收集管道来获取视频中的相机姿态和物体运动强度,进而构建一个大规模的真实世界4D场景数据集CamVid-30K。基于此数据集,开发了一个名为GenXD的框架,该框架能够同时处理3D和4D数据,通过多视图-时间模块解耦相机和物体运动,支持多种条件视图的生成。
- 其它亮点论文的亮点包括:1) 提出了一个创新的数据收集管道,能够从现有视频中提取4D信息;2) 构建了大规模的4D场景数据集CamVid-30K;3) 开发了GenXD框架,能够生成遵循相机轨迹的视频和一致的3D视图;4) 在多个真实世界和合成数据集上进行了广泛的评估,证明了GenXD的有效性和通用性。此外,论文提供了开源代码,便于后续研究者复现和进一步探索。
- 近年来,在3D和4D生成领域,有许多相关研究。例如,《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》提出了使用神经辐射场表示场景以生成新视角的方法;《ECCV 2020: Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer》探讨了使用可微渲染器预测3D对象的技术;《CVPR 2021: Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes》则研究了动态场景的空间时间视图合成。这些研究为GenXD的发展提供了重要的基础和灵感。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流