- 简介视频到视频编辑涉及编辑源视频以及额外的控制(例如文本提示、主题或样式)来生成与源视频和提供的控制相一致的新视频。传统方法受到某些编辑类型的限制,限制了它们满足广泛用户需求的能力。在本文中,我们介绍了AnyV2V,这是一个新颖的无需训练的框架,旨在将视频编辑简化为两个主要步骤:(1)使用现成的图像编辑模型(例如InstructPix2Pix、InstantID等)来修改第一帧,(2)利用现有的图像到视频生成模型(例如I2VGen-XL)进行DDIM反演和特征注入。在第一阶段,AnyV2V可以插入任何现有的图像编辑工具,以支持广泛的视频编辑任务。除了传统的基于提示的编辑方法外,AnyV2V还可以支持新颖的视频编辑任务,包括基于参考的样式转移、主题驱动的编辑和身份操纵,这些任务以前的方法无法实现。在第二阶段,AnyV2V可以插入任何现有的图像到视频模型,以执行DDIM反演和中间特征注入,以保持与源视频的外观和运动一致性。在基于提示的编辑中,我们展示了AnyV2V在提示对齐方面的性能比以前最好的方法提高了35%,在人类偏好方面提高了25%。在三个新颖的任务中,我们展示了AnyV2V也取得了高成功率。我们相信AnyV2V将继续繁荣,因为它能够无缝地集成快速发展的图像编辑方法。这种兼容性可以帮助AnyV2V增加其多样性,以满足不同的用户需求。
- 图表
- 解决问题本论文旨在解决视频编辑的多样化需求和限制,提出了一个新的框架AnyV2V,旨在简化视频编辑过程,支持多种编辑任务,包括传统的提示编辑和新颖的基于参考的风格转移、主题驱动的编辑和身份操作等。
- 关键思路AnyV2V框架由两个主要步骤组成:使用现有的图像编辑模型修改第一帧,然后利用现有的图像到视频生成模型进行DDIM反演和特征注入,以保持与源视频的外观和动作一致性。这个框架可以支持各种视频编辑任务,而不仅仅是传统的提示编辑。
- 其它亮点论文在提示编辑方面表现出色,比之前最好的方法提高了35%的提示对齐度和25%的人类偏好度。在三个新颖的任务上也取得了高成功率。此外,AnyV2V框架具有高度兼容性,可以无缝集成快速发展的图像编辑方法,以满足不断变化的用户需求。
- 在这个领域中,最近的相关研究包括:InstructPix2Pix,InstantID,I2VGen-XL等图像编辑模型,以及一些基于GAN的图像和视频编辑技术,如CycleGAN,StarGAN,Few-shot Video-to-Video Synthesis等。
沙发等你来抢
去评论
评论
沙发等你来抢