GFlow: Recovering 4D World from Monocular Video

向作者提问

NEW

简介

从视频输入中重建4D场景是一项关键但具有挑战性的任务。传统方法通常依赖于多视角视频输入、已知相机参数或静态场景的假设，这些通常在野外场景下缺失。在本文中，我们放松了所有这些限制，并处理了一个非常雄心但实际的任务，我们称之为AnyV4D：我们仅假设有一个单目视频作为输入，没有任何相机参数，并旨在恢复动态的4D世界以及相机姿态。为此，我们引入了GFlow，这是一个新的框架，仅利用2D先验（深度和光流）将视频（3D）提升到4D显式表示，其中包括通过空间和时间的高斯喷洒流。GFlow首先将场景分为静止和移动部分，然后应用顺序优化过程，基于2D先验和场景聚类优化相机姿态和3D高斯点的动态，确保邻近点之间的保真度和跨帧的平滑运动。由于动态场景总是引入新内容，我们还提出了一种新的像素级稠密化策略，以整合新的视觉内容。此外，GFlow超越了纯粹的4D重建的界限；它还使得跟踪任何点在帧之间成为可能，无需事先进行训练，并以无监督的方式分割场景中的移动物体。此外，每个帧的相机姿态可以从GFlow中派生出来，从而通过改变相机姿态呈现视频场景的新视图。通过采用显式表示，我们可以根据需要轻松进行场景级或对象级编辑，突显其多功能性和强大性。请访问我们的项目网站：https://littlepure2333.github.io/GFlow。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决从单目视频中恢复动态4D世界和相机姿态的问题，而无需多视图视频输入、已知相机参数或静态场景。
关键思路

本文提出了GFlow框架，利用2D先验（深度和光流）将视频（3D）提升到4D显式表示，通过高斯点的流动来实现。GFlow首先将场景聚类为静止和运动部分，然后应用顺序优化过程，基于2D先验和场景聚类来优化3D高斯点的相机姿态和动态，确保相邻点之间的保真度和帧之间的平滑运动。
其它亮点

本文提出了GFlow框架，可以从单目视频中恢复动态4D世界和相机姿态，而无需多视图视频输入、已知相机参数或静态场景。该框架还可以跟踪任何点的移动，无需先前的训练，并以无监督的方式分割场景中的运动对象。此外，每帧的相机姿态可以从GFlow中导出，从而通过改变相机姿态来渲染视频场景的新视图。本文还提出了像素级稠密化策略，以集成新的视觉内容。实验结果表明，GFlow在多个数据集上的性能优于现有方法，并且可以进行场景级或对象级编辑。
相关研究

在这个领域中，最近的相关研究包括：《DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation》、《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》、《Learning to Reconstruct 3D Manhattan Wireframes from a Single Image》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问