- 简介视频合成是视频编辑的核心任务。尽管基于扩散模型的图像合成已经取得了很大成功,但将这一成果扩展到视频对象合成任务并不简单,因为视频对象合成任务不仅展现出相应的交互效应,而且还要确保合成视频中的对象保持运动和身份的一致性,这对于合成物理和谐视频是必要的。为了解决这个挑战,我们提出了一种基于扩散模型的多视频对象合成(MVOC)方法。具体而言,我们首先对每个视频对象执行DDIM反演,以获得相应的噪声特征。其次,我们通过图像编辑方法组合和编辑每个对象,以获得合成视频的第一帧。最后,我们使用图像到视频生成模型,在视频对象依赖模块中进行特征和注意力注入,这是一种无需训练的视频生成条件指导操作,可以使各种对象之间的特征和注意力图协调,这些对象在合成视频中可以是非独立的。最终的生成模型不仅约束了生成的视频中的对象与原始对象的运动和身份一致,而且还引入了对象之间的交互效应。广泛的实验表明,所提出的方法优于现有的最先进方法。项目页面:https://sobeymil.github.io/mvoc.com。
- 图表
- 解决问题本论文旨在解决视频对象合成任务中的核心问题——如何确保合成视频中的对象运动和身份的一致性,同时保持交互效应,以实现物理和谐视频的合成。
- 关键思路论文提出了一种基于扩散模型的多视频对象合成(MVOC)方法。该方法通过DDIM反演获取噪声特征,并通过图像编辑方法组合和编辑每个对象,然后使用图像到视频生成模型在视频对象依赖模块中进行特征和注意力注入,从而生成具有对象运动和身份一致性的视频,并引入对象之间的交互效应。
- 其它亮点论文的亮点包括使用DDIM反演获取噪声特征、使用图像编辑方法组合和编辑每个对象、使用图像到视频生成模型进行特征和注意力注入、使用Video Object Dependence Module实现各个对象之间的协调,以及在多个数据集上进行的广泛实验。
- 在这个领域中,最近的相关研究包括:《Deep Image Matting》、《Deep Video Portraits》、《Video Generation from Single Semantic Label Map》等。
沙发等你来抢
去评论
评论
沙发等你来抢