- 简介最近的零样本视频扩散模型的进展为文本驱动的视频编辑提供了前景,但是在实现高时间一致性方面仍然存在挑战。为了解决这个问题,我们引入了Video-3DGS,一种基于3D高斯喷洒(3DGS)的视频细化器,旨在增强零样本视频编辑器中的时间一致性。我们的方法利用了一种针对编辑动态单目视频的两阶段3D高斯优化过程。在第一阶段中,Video-3DGS采用了一个称为MC-COLMAP的改进版本,它使用掩膜和剪切方法处理原始视频。对于每个视频剪辑,MC-COLMAP为动态前景对象和复杂背景生成点云。这些点云用于初始化两组3D高斯(Frg-3DGS和Bkg-3DGS),旨在表示前景和背景视图。然后,前景和背景视图都与2D可学习参数映射合并以重建完整视图。在第二阶段中,我们利用第一阶段开发的重建能力对视频扩散模型施加时间约束。为了展示Video-3DGS在两个相关任务(视频重建和视频编辑)上的有效性,我们在58个动态单目视频上进行了广泛的实验。在DAVIS数据集上,经过3k次迭代训练的Video-3DGS显著提高了视频重建质量(+3 PSNR,+7 PSNR增加)和训练效率(分别为NeRF和3DGS最先进方法的1.9倍和4.5倍)。此外,它通过确保58个动态单目视频的时间一致性来增强视频编辑。
- 图表
- 解决问题论文旨在解决零样本视频编辑中的时间一致性问题,提出了一种基于3D高斯喷溅的视频细化器Video-3DGS。
- 关键思路论文的关键思路是利用改进的COLMAP生成前景和背景点云,初始化两组3D高斯模型,通过可学习的参数图将前景和背景视图合并重构全景视图,然后在第二阶段利用重构能力对视频扩散模型施加时间约束。
- 其它亮点论文在DAVIS数据集上进行了大量实验,证明了Video-3DGS在视频重建和视频编辑方面的有效性。与当前最先进的NeRF和3DGS方法相比,Video-3DGS在视频重建方面提高了3个PSNR和7个PSNR,训练效率分别提高了1.9倍和4.5倍。此外,它还可以通过58个动态单目视频确保时间一致性。
- 在这个领域中,最近的相关研究包括Zero-shot Video Editing via Attentive GANs和Text-based Editing of Talking-head Video。
沙发等你来抢
去评论
评论
沙发等你来抢