Controlling Space and Time with Diffusion Models

简介

我们提出了4DiM，这是一个级联扩散模型，用于基于一般场景的一个或多个图像以及一组相机姿态和时间戳的4D新视图合成。为了克服4D训练数据有限的挑战，我们提倡在3D（带有相机姿态）、4D（姿态+时间）和视频（有时间但没有姿态）数据上进行联合训练，并提出了一种新的架构来实现这一点。我们进一步提倡使用单目度量深度估计器来校准SfM姿态数据，以实现度量尺度相机控制。为了对模型进行评估，我们引入了新的指标来丰富和克服当前评估方案的缺点，展示了与现有3D NVS扩散模型相比在保真度和姿态控制方面的最新结果，同时增加了处理时间动态的能力。 4DiM还用于改进全景拼接、姿态条件视频到视频转换和其他几项任务。有关概述，请参见 https://4d-diffusion.github.io。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决4D新视角合成中的挑战，包括有限的训练数据和时间动态。同时，还试图改进全景拼接和视频翻译等任务。
关键思路

通过联合训练3D、4D和视频数据，提出了一个新的架构4DiM，用于4D新视角合成。同时，使用单眼度量深度估计器进行SfM数据的校准，以实现度量尺度的相机控制。
其它亮点

论文提出了新的评估指标，展示了4DiM在保真度和姿态控制方面的最新结果。此外，还在全景拼接和视频翻译等任务中应用了4DiM，并开源了代码。
相关研究

与该论文相关的研究包括：'NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis'，'DeepVoxels: Learning Persistent 3D Feature Embeddings'等。

Controlling Space and Time with Diffusion Models

提问交流

提问交流