FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis

简介

本文提出了一种一致的视频生成框架，通过联合利用源视频中的空间条件和时间光流线索来解决视频生成中保持时间一致性的挑战。与严格遵循光流的先前方法不同，我们的方法在处理光流估计的不完美性时利用了其优势。我们通过从第一帧进行变形来对光流进行编码，并将其作为扩展参考用于扩散模型中。这使我们的模型能够通过使用任何普遍的I2I模型编辑第一帧，然后将编辑传播到后续帧来进行视频合成。我们的V2V模型FlowVid展现了显著的特性：(1)灵活性：FlowVid与现有的I2I模型无缝协作，便于各种修改，包括风格化、对象交换和局部编辑。(2)效率：生成一个4秒、30 FPS和512x512分辨率的视频只需1.5分钟，比CoDeF、Rerender和TokenFlow分别快3.1倍、7.2倍和10.5倍。(3)高质量：在用户研究中，我们的FlowVid被优先选择的概率为45.7%，优于CoDeF(3.5%)、Rerender(10.2%)和TokenFlow(40.4%)。
图表
解决问题

本论文旨在解决视频到视频（V2V）合成中的时间一致性问题，提出了一种利用源视频的空间条件和时间光流线索共同实现一致性V2V合成的框架。
关键思路

论文的关键思路是将光流通过从第一帧进行的变形编码，并将其作为扩展参考传递给扩散模型，从而实现对视频的编辑和传播。
其它亮点

本论文的亮点包括：1. 灵活性：FlowVid可以与现有的I2I模型无缝配合，实现各种修改，包括样式化、对象交换和局部编辑。2. 效率：生成一部4秒、30FPS、512x512分辨率的视频只需要1.5分钟，比CoDeF、Rerender和TokenFlow分别快3.1倍、7.2倍和10.5倍。3. 高质量：在用户研究中，FlowVid的偏好度为45.7%，优于CoDeF（3.5%）、Rerender（10.2%）和TokenFlow（40.4%）。
相关研究

在这个领域中，最近的相关研究包括CoDeF、Rerender和TokenFlow。

FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis

评论