Splatter a Video: Video Gaussian Representation for Versatile Processing

简介

视频表示是一个长期存在的问题，对于各种下游任务非常重要，例如跟踪、深度预测、分割、视角合成和编辑。然而，目前的方法要么由于缺乏3D结构而难以建模复杂的运动，要么依赖于不适合操作任务的隐式3D表示。为了解决这些挑战，我们引入了一种新的显式3D表示——视频高斯表示，将视频嵌入到3D高斯中。我们提出的表示方法使用显式高斯作为代理在3D规范空间中建模视频外观，并将每个高斯与视频运动关联。这种方法比分层图集或体素像素矩阵提供了更本质和显式的表示。为了获得这样的表示，我们从基础模型中提取2D先验知识，例如光流和深度，以规范化在这种不适当的设置中的学习。广泛的应用证明了我们新视频表示的多功能性。它在许多视频处理任务中被证明是有效的，包括跟踪、一致的视频深度和特征细化、运动和外观编辑以及立体视频生成。项目页面：https://sunyangtian.github.io/spatter_a_video_web/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决视频表示问题，即如何将视频嵌入到3D高斯中以便于下游任务的处理。当前的方法要么无法建模复杂的运动，要么依赖于不适合操作任务的隐式3D表示。
关键思路

论文提出了一种新的显式3D表示方法，即视频高斯表示，将视频嵌入到3D高斯中。该方法使用显式高斯作为代理来模拟视频外观，并将每个高斯与视频运动相关联，以建模视频的3D运动。
其它亮点

该论文的亮点在于提出了一种新的视频表示方法，可以应用于许多视频处理任务，包括跟踪、深度估计、运动和外观编辑、立体视频生成等。论文使用2D先验知识来规范学习，使用多个数据集进行了广泛的应用实验，并开源了代码。
相关研究

最近的相关研究包括：'DeepSDF'、'NeRF'、'AtlasNet'等。

Splatter a Video: Video Gaussian Representation for Versatile Processing

提问交流

提问交流