- 简介我们提出了一项新的任务,称为在线视频编辑,旨在在保持时间一致性的同时编辑流式帧。与现有的离线视频编辑不同,离线视频编辑假设所有帧都是预先建立和可访问的,而在线视频编辑则适用于现实生活中的应用,如直播和在线聊天,需要(1)快速持续的步骤推理,(2)长期的时间建模,以及(3)零-shot视频编辑能力。为了解决这些问题,我们提出了流式视频扩散(SVDiff),它将紧凑的空间感知时间重复性纳入现成的稳定扩散中,并使用分段级别方案在大规模长视频上进行训练。这种简单而有效的设置使我们能够获得一个单一的模型,能够执行广泛的视频,并编辑每个流式帧,保持时间上的连贯性。我们的实验表明,我们的模型可以编辑长时间、高质量的视频,并取得了显著的结果,在512x512的分辨率下实现了15.2 FPS的实时推理速度。
- 图表
- 解决问题解决问题:论文提出了在线视频编辑这一新任务,旨在实现对流式视频帧的编辑,并保持时间上的连贯性。
- 关键思路关键思路:文章提出了Streaming Video Diffusion(SVDiff)方法,将紧凑的空间感知时间回归结合到现有的Stable Diffusion中,采用分段级别的方案在大规模长视频上进行训练,实现零-shot视频编辑能力。
- 其它亮点其他亮点:实验结果表明,该模型能够编辑长时间、高质量的视频,并以512x512的分辨率实现15.2 FPS的实时推理速度。
- 相关研究:与此相关的研究包括视频编辑、实时视频处理和分布式推理等。
沙发等你来抢
去评论
评论
沙发等你来抢