题目:Structure and Content-Guided Video Synthesis with Diffusion Models

作者

Runway:Patrick Esser、Johnathan Chiu、Parmida Atighehchian、Jonathan Granskog、Anastasis Germanidis

Runway发布GEN-1,其结果比Stable Diffusion 1.5提升73.83%,比Text2Live提升88.24%

地址

https://arxiv.org/abs/2302.03011

简介

文本引导的生成扩散模型解锁了强大的图像创建和编辑工具。虽然这些已扩展到视频生成,但当前在保留结构的同时编辑现有素材内容的方法需要对每个输入进行昂贵的再培训,或依赖于跨帧图像编辑的易出错传播。在这项工作中,我们提出了一种结构和内容引导的视频传播模型,该模型根据所需输出的视觉或文本描述编辑视频。由于两个方面之间没有充分解开,用户提供的内容编辑和结构表示之间存在冲突。作为解决方案,我们表明,具有不同细节水平的单目深度估计训练可以控制结构和内容保真度。我们的模型在图像和视频上进行了联合训练,这也通过一种新的制导方法揭示了对时间一致性的显式控制。我们的实验展示了各种各样的成功;对输出特性的细粒度控制,基于一些参考图像的定制,以及用户对我们模型结果的强烈偏好。