- 简介从视频输入中重建4D场景是一项关键但具有挑战性的任务。传统方法通常依赖于多视角视频输入、已知相机参数或静态场景的假设,这些通常在野外场景下缺失。在本文中,我们放松了所有这些限制,并处理了一个非常雄心但实际的任务,我们称之为AnyV4D:我们仅假设有一个单目视频作为输入,没有任何相机参数,并旨在恢复动态的4D世界以及相机姿态。为此,我们引入了GFlow,这是一个新的框架,仅利用2D先验(深度和光流)将视频(3D)提升到4D显式表示,其中包括通过空间和时间的高斯喷洒流。GFlow首先将场景分为静止和移动部分,然后应用顺序优化过程,基于2D先验和场景聚类优化相机姿态和3D高斯点的动态,确保邻近点之间的保真度和跨帧的平滑运动。由于动态场景总是引入新内容,我们还提出了一种新的像素级稠密化策略,以整合新的视觉内容。此外,GFlow超越了纯粹的4D重建的界限;它还使得跟踪任何点在帧之间成为可能,无需事先进行训练,并以无监督的方式分割场景中的移动物体。此外,每个帧的相机姿态可以从GFlow中派生出来,从而通过改变相机姿态呈现视频场景的新视图。通过采用显式表示,我们可以根据需要轻松进行场景级或对象级编辑,突显其多功能性和强大性。请访问我们的项目网站:https://littlepure2333.github.io/GFlow。
-
- 图表
- 解决问题本文试图解决从单目视频中恢复动态4D世界和相机姿态的问题,而无需多视图视频输入、已知相机参数或静态场景。
- 关键思路本文提出了GFlow框架,利用2D先验(深度和光流)将视频(3D)提升到4D显式表示,通过高斯点的流动来实现。GFlow首先将场景聚类为静止和运动部分,然后应用顺序优化过程,基于2D先验和场景聚类来优化3D高斯点的相机姿态和动态,确保相邻点之间的保真度和帧之间的平滑运动。
- 其它亮点本文提出了GFlow框架,可以从单目视频中恢复动态4D世界和相机姿态,而无需多视图视频输入、已知相机参数或静态场景。该框架还可以跟踪任何点的移动,无需先前的训练,并以无监督的方式分割场景中的运动对象。此外,每帧的相机姿态可以从GFlow中导出,从而通过改变相机姿态来渲染视频场景的新视图。本文还提出了像素级稠密化策略,以集成新的视觉内容。实验结果表明,GFlow在多个数据集上的性能优于现有方法,并且可以进行场景级或对象级编辑。
- 在这个领域中,最近的相关研究包括:《DeepSDF: Learning Continuous Signed Distance Functions for Shape Representation》、《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》、《Learning to Reconstruct 3D Manhattan Wireframes from a Single Image》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流