EffiVED:Efficient Video Editing via Text-instruction Diffusion Models

简介

大规模文本到视频模型已经展现出了非凡的能力，但是由于可用数据集的限制，它们在视频编辑中的直接应用仍然具有挑战性。当前的视频编辑方法通常需要对扩散模型进行每个视频的微调或特定的反演优化，以确保高保真度的编辑。在本文中，我们介绍了EffiVED，一种高效的基于扩散的模型，直接支持指导视频编辑。为了实现这一点，我们提出了两种有效的工作流程来收集视频编辑对，利用增强和基本的视觉语言技术。这些工作流程将广泛的图像编辑数据集和开放世界视频转化为高质量的数据集，用于训练EffiVED。实验结果表明，EffiVED不仅生成高质量的编辑视频，而且执行速度快。最后，我们证明了我们的数据收集方法显著提高了编辑性能，并且有可能解决视频编辑数据的稀缺问题。这些数据集将在发表后公开发布。
图表
解决问题

EffiVED: 一种有效的基于扩散模型的视频编辑方法
关键思路

EffiVED是一种基于扩散模型的视频编辑模型，可以直接支持指导性视频编辑。通过两种有效的工作流程，将大量的图像编辑数据集和开放世界视频转化为高质量的训练数据集，从而训练出高质量的EffiVED模型。
其它亮点

论文设计了两种有效的工作流程来收集视频编辑对数据，使用了扩增和基本视觉语言技术，将大量的图像编辑数据集和开放世界视频转化为高质量的训练数据集。EffiVED不仅可以生成高质量的编辑视频，而且执行速度快。研究表明，作者的数据收集方法显著提高了编辑性能，可以解决视频编辑数据的稀缺问题。数据集将在发表后公开。
相关研究

最近在这个领域中，还有一些相关的研究，如《Generative Adversarial Networks for Video Editing and Creation》和《Video Editing with Temporal Attention Modules》。

EffiVED:Efficient Video Editing via Text-instruction Diffusion Models

评论