CoCoCo: Improving Text-Guided Video Inpainting for Better Consistency, Controllability and Compatibility

2024年03月18日
  • 简介
    最近视频生成领域的进展非常显著,但许多现有方法仍然存在一致性和文本视频对齐的问题。此外,该领域缺乏有效的文本引导视频修补技术,这与文本引导图像修补领域形成了鲜明对比。因此,本文提出了一种新颖的文本引导视频修补模型,实现了更好的一致性、可控性和兼容性。具体地,我们引入了一个简单而高效的动作捕捉模块以保持动作的一致性,并设计了一个实例感知区域选择来获得更好的文本可控性,并利用一种新颖的策略将一些个性化模型注入我们的CoCoCo模型中,从而获得更好的模型兼容性。大量实验证明我们的模型可以生成高质量的视频片段。同时,我们的模型表现出更好的动作一致性、文本可控性和模型兼容性。更多细节请参见[cococozibojia.github.io](cococozibojia.github.io)。
  • 图表
  • 解决问题
    解决问题:该论文提出了一种新的文本引导视频修复模型,旨在解决现有方法在一致性和文本-视频对齐方面存在的问题,并提高文本控制性和模型兼容性。
  • 关键思路
    关键思路:论文提出了一种简单而有效的运动捕捉模块,以保持运动一致性;设计了一种实例感知区域选择来获得更好的文本控制性;利用一种新颖的策略将一些个性化模型注入到CoCoCo模型中,从而获得更好的模型兼容性。
  • 其它亮点
    其他亮点:论文的实验结果表明,该模型能够生成高质量的视频片段,并具有更好的运动一致性、文本控制性和模型兼容性。论文还开源了代码并使用了多个数据集进行实验。
  • 相关研究
    相关研究:最近的相关研究包括:1. 'Text2Scene: Generating Compositional Scenes from Textual Descriptions';2. 'Text-Guided Neural Image Inpainting';3. 'Text-Guided Video Synthesis from Semantic Layouts'。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论