You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

2024年12月09日
  • 简介
    最近的3D生成模型通常依赖于有限规模的3D“金标准”或2D扩散先验来进行3D内容创作。然而,由于缺乏可扩展的学习范式,这些模型的性能受到受限的3D先验的限制。在这项工作中,我们提出了See3D,这是一种基于大规模互联网视频训练的视觉条件多视图扩散模型,用于开放世界的3D创作。该模型旨在仅通过观看大量且快速增长的视频数据中的视觉内容来获取3D知识——你看到它,你就得到了它。为了实现这一目标,我们首先使用一个提出的数据整理管道来扩大训练数据,该管道自动过滤掉源视频中的多视图不一致性和不足的观察。这产生了一个高质量、丰富多样、大规模的多视图图像数据集,称为WebVi3D,包含来自1600万个视频片段的3.2亿帧。然而,从没有明确的3D几何或相机姿态注释的视频中学习通用的3D先验是非 trivial 的,而为网络规模的视频标注姿态是极其昂贵的。为了消除对姿态条件的需求,我们引入了一种创新的视觉条件——一种纯粹的2D归纳视觉信号,通过向遮罩后的视频数据添加时间依赖的噪声生成。最后,我们通过将See3D集成到基于变形的流水线中,引入了一种新颖的视觉条件3D生成框架,用于高保真3D生成。我们在单视图和稀疏重建基准上的数值和视觉比较表明,See3D在成本效益高且可扩展的视频数据上训练,实现了显著的零样本和开放世界生成能力,明显优于在昂贵且受限的3D数据集上训练的模型。请参阅我们的项目页面:https://vision.baai.ac.cn/see3d
  • 图表
  • 解决问题
    本文旨在解决现有3D生成模型在创建开放世界3D内容时因缺乏可扩展学习范式而受到限制的问题。通过利用大规模互联网视频数据,该研究试图克服传统3D生成模型对有限规模3D‘金标准’或2D扩散先验的依赖。
  • 关键思路
    关键思路是提出了一种名为See3D的视觉条件多视图扩散模型,该模型能够从大量互联网视频中自动学习3D知识,无需显式的3D几何或相机姿态注释。通过引入一种创新的纯2D诱导视觉信号,消除了对姿态条件的需求,从而实现高保真的3D生成。
  • 其它亮点
    1. 提出了WebVi3D数据集,包含3.2亿帧来自1600万个视频片段的高质量多视角图像。 2. 引入了时间依赖噪声的纯2D诱导视觉信号,解决了大规模视频数据无显式3D几何或相机姿态注释的问题。 3. 在单视图和稀疏重建基准上进行了数值和视觉比较,显示See3D在零样本和开放世界生成能力上显著优于基于昂贵且受限的3D数据集训练的模型。 4. 项目页面提供了更多详细信息和资源:https://vision.baai.ac.cn/see3d
  • 相关研究
    1. "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis" (ECCV 2020) 2. "Instant NGP: Generalized Instant Neural Graphics Primitives with Ray-Batching and SH Encoding" (SIGGRAPH 2022) 3. "Pi-GAN: Periodic Implicit Generative Adversarial Networks for 3D-Aware Image Synthesis" (CVPR 2021) 4. "3D Diffusion Models for Multi-View Image Generation" (ICML 2022)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论