Zero-Shot Video Editing through Adaptive Sliding Score Distillation

简介

文本生成视频(T2V)领域的蓬勃发展重新点燃了对可控视频编辑研究的浓厚兴趣。尽管预训练的基于T2V的编辑模型已经实现了高效的编辑能力，但目前的研究仍然受到两个主要挑战的困扰。首先，T2V模型固有的局限性导致帧之间存在内容不一致和运动不连续的问题。其次，臭名昭著的过度编辑问题会显著扰乱本来不应被修改的区域。为了解决这些挑战，我们的工作旨在探索一种基于分数蒸馏的强大的视频编辑范式。具体而言，我们提出了一种自适应滑动分数蒸馏策略，不仅增强了T2V监督的稳定性，而且结合了全局和局部视频指导，以减轻生成错误的影响。此外，我们在编辑过程中修改了自注意力层，以进一步保留原始视频的关键特征。广泛的实验表明，这些策略使我们能够有效地解决上述挑战，实现了比现有最先进方法更优异的编辑性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在探索一种基于分数蒸馏的视频编辑范式，以应对当前文本生成视频（T2V）领域中存在的内容不一致和运动不连续性等问题，同时解决过度编辑问题。
关键思路

论文提出了一种自适应滑动分数蒸馏策略，结合全局和局部视频指导，提高了T2V监督的稳定性，减轻了生成错误的影响。此外，还修改了自我注意力层以进一步保留原始视频的关键特征。
其它亮点

论文在多个数据集上进行了广泛的实验，并证明了该策略在解决文本生成视频领域中存在的问题方面的优越性。同时，论文还开源了代码，这对于该领域的研究具有重要意义。
相关研究

在这个领域中，最近的相关研究包括：《Text-based Editing of Talking-head Video》、《Text-based Editing of Talking-head Video Using Linear Interpolation》等。

Zero-Shot Video Editing through Adaptive Sliding Score Distillation

提问交流

提问交流