Controlling Space and Time with Diffusion Models

2024年07月10日
  • 简介
    我们提出了4DiM,这是一个级联扩散模型,用于基于一般场景的一个或多个图像以及一组相机姿态和时间戳的4D新视图合成。为了克服4D训练数据有限的挑战,我们提倡在3D(带有相机姿态)、4D(姿态+时间)和视频(有时间但没有姿态)数据上进行联合训练,并提出了一种新的架构来实现这一点。我们进一步提倡使用单目度量深度估计器来校准SfM姿态数据,以实现度量尺度相机控制。为了对模型进行评估,我们引入了新的指标来丰富和克服当前评估方案的缺点,展示了与现有3D NVS扩散模型相比在保真度和姿态控制方面的最新结果,同时增加了处理时间动态的能力。 4DiM还用于改进全景拼接、姿态条件视频到视频转换和其他几项任务。有关概述,请参见 https://4d-diffusion.github.io。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决4D新视角合成中的挑战,包括有限的训练数据和时间动态。同时,还试图改进全景拼接和视频翻译等任务。
  • 关键思路
    通过联合训练3D、4D和视频数据,提出了一个新的架构4DiM,用于4D新视角合成。同时,使用单眼度量深度估计器进行SfM数据的校准,以实现度量尺度的相机控制。
  • 其它亮点
    论文提出了新的评估指标,展示了4DiM在保真度和姿态控制方面的最新结果。此外,还在全景拼接和视频翻译等任务中应用了4DiM,并开源了代码。
  • 相关研究
    与该论文相关的研究包括:'NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis','DeepVoxels: Learning Persistent 3D Feature Embeddings'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问