DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

简介

现有的VLM可以跟踪野外2D视频对象，而当前的生成模型为合成高度不受限制的2D到3D对象提供了强大的视觉先验。在这一令人兴奋的进展基础上，我们提出了DreamScene4D，这是第一个可以从单目野外视频生成多个对象的三维动态场景的方法，这些对象在遮挡和新视角下具有大的物体运动。我们的关键洞察是设计了一种“分解-重组”方案，以分解整个视频场景和每个对象的3D运动。我们首先通过使用开放词汇掩模跟踪器和适应的图像扩散模型来分割、跟踪和完成视频中的对象和背景，从而分解视频场景。每个对象轨迹被映射到一组3D高斯函数，在空间和时间上变形和移动。我们还将观察到的运动分解为多个组件以处理快速运动。可以通过重新渲染背景以匹配视频帧来推断相机运动。对于对象运动，我们首先利用对象中心帧的渲染损失和多视角生成先验来建模对象的中心变形，然后通过将渲染输出与感知像素和光流进行比较来优化对象中心到世界坐标系的变换。最后，我们重组背景和对象，并使用单目深度预测指导优化相对对象比例。我们展示了在具有挑战性的DAVIS、Kubric和自拍视频上的广泛结果，详细说明了一些限制，并提供未来的方向。除了4D场景生成，我们的结果表明，DreamScene4D通过将推断的3D轨迹投影到2D上，实现了精确的2D点运动跟踪，而从未明确训练过这样做。
图表
解决问题

DreamScene4D论文试图解决从单目视频中生成三维动态场景的问题，包括多个对象的运动以及遮挡和新视角等问题。
关键思路

该论文的关键思路是设计了一种“分解再重组”的方案，通过使用开放词汇掩码跟踪器和适应的图像扩散模型来分解整个视频场景和每个对象的三维运动，然后对相对对象比例进行优化。
其它亮点

该论文的亮点包括：使用开放词汇掩码跟踪器和图像扩散模型来分解整个视频场景和每个对象的三维运动；将对象轨迹映射到一组三维高斯函数中，以在空间和时间上变形和移动；使用多视角生成先验和渲染损失来建模对象的变形；实现了准确的二维点运动跟踪；在DAVIS、Kubric和自拍视频等数据集上进行了广泛的实验。
相关研究

最近在这个领域中，还有一些相关研究，如《DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation》、《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》等。

DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

评论