Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting

简介

最近的零样本视频扩散模型取得了令人鼓舞的成果，可以用于基于文本的视频编辑，但是在实现高时间一致性方面仍然存在挑战。为了解决这个问题，我们介绍了一种名为Video-3DGS的三维高斯喷洒（3DGS）视频精化器，旨在增强零样本视频编辑器的时间一致性。我们的方法利用了一个专门为编辑动态单目视频设计的两阶段3D高斯优化过程。在第一阶段，Video-3DGS采用了一个改进版本的COLMAP，称为MC-COLMAP，它使用遮罩和剪切方法处理原始视频。对于每个视频剪辑，MC-COLMAP生成动态前景对象和复杂背景的点云。这些点云用于初始化两组3D高斯（Frg-3DGS和Bkg-3DGS），旨在表示前景和背景视图。然后，前景和背景视图都与一个二维可学习参数图合并，以重构完整视图。在第二阶段，我们利用第一阶段开发的重构能力对视频扩散模型施加时间约束。为了展示Video-3DGS在两个相关任务上的有效性，我们在两个任务上进行了广泛的实验：视频重建和视频编辑。在DAVIS数据集上，Video-3DGS经过3k次迭代训练，相对于基于NeRF和基于3DGS的最先进方法，分别显著提高了视频重建质量（+3 PSNR，+7 PSNR增加）和训练效率（分别快了1.9倍和4.5倍）。此外，它通过确保58个动态单目视频的时间一致性，增强了视频编辑的效果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决零样本视频编辑中时间一致性不足的问题。
关键思路

论文提出了一种基于3D高斯喷洒的视频细化器，利用两阶段3D高斯优化过程，通过对动态单目视频进行处理，以增强时间一致性。
其它亮点

论文使用了改进版的COLMAP（MC-COLMAP）处理原始视频，并使用点云初始化两组3D高斯，以表示前景和背景视图。然后利用可学习参数图将前景和背景视图合并以重构完整视图。在第二阶段，利用第一阶段开发的重构能力对视频扩散模型施加时间约束。实验表明，该方法在DAVIS数据集上的视频重建和视频编辑任务中表现出色。
相关研究

近期的相关研究包括NeRF和3DGS等基于零样本视频编辑的方法。

Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting

提问交流

提问交流