- 简介最近的零样本视频扩散模型的进展显示出在文本驱动的视频编辑方面的潜力,但在实现高时间一致性方面仍存在挑战。为了解决这个问题,我们引入了Video-3DGS,这是一种基于3D高斯喷洒(3DGS)的视频细化器,旨在增强零样本视频编辑器中的时间一致性。我们的方法利用了一个为编辑动态单眼视频量身定制的两阶段3D高斯优化过程。在第一阶段,Video-3DGS使用一个名为MC-COLMAP的改进版本,它使用遮罩和裁剪方法处理原始视频。对于每个视频剪辑,MC-COLMAP生成动态前景对象和复杂背景的点云。这些点云用于初始化两组3D高斯(Frg-3DGS和Bkg-3DGS),旨在表示前景和背景视图。然后,前景和背景视图都与一个2D可学习参数映射合并,以重建完整视图。在第二阶段,我们利用第一阶段开发的重建能力,对视频扩散模型施加时间约束。为了展示Video-3DGS在两个相关任务(视频重建和视频编辑)上的有效性,我们进行了广泛的实验。在DAVIS数据集上,使用3k次迭代训练的Video-3DGS显著提高了视频重建质量(+3 PSNR,+7 PSNR增加),并且相对于NeRF和3DGS的最先进方法,训练效率分别提高了1.9倍和4.5倍。此外,它通过确保58个动态单眼视频的时间一致性,增强了视频编辑的能力。
- 图表
- 解决问题本文旨在解决零样本视频编辑中的时间一致性问题。是否是一个新问题并未说明。
- 关键思路本文提出了一种基于3D高斯光栅(3DGS)的视频细化器Video-3DGS,旨在增强零样本视频编辑中的时间一致性。该方法利用了针对编辑动态单目视频的两阶段3D高斯优化过程。第一阶段使用了一种改进的COLMAP,称为MC-COLMAP,它使用掩膜和剪切方法处理原始视频,为动态前景对象和复杂背景生成点云。这些点云用于初始化两组3D高斯,即前景3DGS和背景3DGS,以表示前景和背景视图。然后使用2D可学习参数图将前景和背景视图合并以重建完整视图。第二阶段利用第一阶段开发的重建能力对视频扩散模型施加时间约束。
- 其它亮点本文在DAVIS数据集上进行了广泛的实验,证明了Video-3DGS在视频重建和视频编辑方面的有效性。与NeRF和3DGS等最先进的方法相比,Video-3DGS在DAVIS数据集上的训练效率提高了1.9倍至4.5倍,同时视频重建质量也得到了显著提高(PSNR增加了3到7)。此外,Video-3DGS还通过确保58个动态单目视频的时间一致性来增强视频编辑。
- 最近在这个领域中,还有一些相关的研究,例如:1.《Text-based Editing of Talking-head Video》;2.《Zero-shot Video Editing via Interpretable NLP》;3.《Text2Scene: Generating 3D Scenes from Text Descriptions》等。
沙发等你来抢
去评论
评论
沙发等你来抢