- 简介我们介绍了InVi,一种使用现成的文本到图像潜在扩散模型来插入或替换视频中的对象(称为修补)的方法。InVi旨在对对象进行受控制的操作,并将它们无缝地融合到背景视频中,而不像现有的视频编辑方法那样专注于全面的重新设计或整个场景的改变。为了实现这个目标,我们解决了两个关键挑战。首先,为了实现高质量的控制和融合,我们采用了一个两步的过程,包括修补和匹配。这个过程从使用基于ControlNet的修补扩散模型将对象插入到单个帧开始,然后生成以修补帧特征为锚点的后续帧来最小化背景和对象之间的域差异。其次,为了确保时间上的连贯性,我们用扩展注意力层替换了扩散模型的自注意力层。锚定帧特征作为这些层的键和值,增强了帧之间的一致性。我们的方法消除了视频特定微调的需求,提供了一种高效且适应性强的解决方案。实验结果表明,InVi实现了逼真的对象插入,帧之间的融合和连贯性一致,优于现有的方法。
- 图表
- 解决问题该论文旨在解决视频中对象插入或替换(称为修复)的问题,使用现成的文本到图像潜在扩散模型。与现有的视频编辑方法不同,InVi专注于控制对象的操作并使其无缝融入背景视频。
- 关键思路该论文提出了一种两步法的过程,包括修复和匹配,以实现高质量的控制和融合。首先使用基于ControlNet的修复扩散模型将对象插入单个帧,然后生成后续帧,以锚定修复帧的特征以最小化背景和对象之间的差异。其次,为了确保时间上的连贯性,使用扩展注意力层替换扩散模型的自注意力层,锚定帧特征作为这些层的键和值,增强帧之间的一致性。
- 其它亮点实验结果表明,InVi实现了逼真的对象插入,帧之间的一致性和融合一致,优于现有方法。该论文的方法不需要视频特定的微调,提供了一种高效和适应性强的解决方案。
- 在这个领域中,最近的相关研究包括:1)Deep Video Inpainting:https://arxiv.org/abs/2007.06587;2)Deep Flow-Guided Video Inpainting:https://arxiv.org/abs/2005.01211;3)Video Inpainting by Jointly Learning Temporal Structure and Spatial Details:https://arxiv.org/abs/2008.02331。
沙发等你来抢
去评论
评论
沙发等你来抢