- 简介本文介绍了一种叫做“Text-conditioned image-to-video generation (TI2V)” 的技术,它旨在从给定的图像(例如一张女人的照片)和文本描述(例如“一个女人正在喝水”)开始合成逼真的视频。现有的TI2V框架通常需要在视频-文本数据集上进行昂贵的训练,并需要特定的模型设计来实现文本和图像的条件生成。本文提出了一种名为TI2V-Zero的零样本、无需微调的方法,它利用了一个预训练的文本-视频扩散模型作为生成先验,使其能够根据提供的图像进行条件生成,从而实现TI2V生成,无需任何优化、微调或引入外部模块。为了指导视频生成并加入额外的图像输入,本文提出了一种“重复滑动”策略,它调节了反向去噪过程,使得冻结的扩散模型能够从提供的图像开始逐帧合成视频。为了确保时间上的连续性,本文采用了DDPM反演策略来为每个新合成的帧初始化高斯噪声,并采用重新采样技术来帮助保留视觉细节。本文在特定领域和开放领域的数据集上进行了全面的实验,结果表明TI2V-Zero在表现上一直优于最近的开放领域TI2V模型。此外,本文还展示了TI2V-Zero可以轻松扩展到其他任务,例如当提供更多的图像时,可以用于视频填充和预测。它的自回归设计也支持长视频生成。
-
- 图表
- 解决问题本文旨在通过提出一种零调优的方法,利用预训练的文本到视频扩散模型生成与给定图像相关的视频,从而解决文本条件下的图像到视频生成问题。
- 关键思路本文提出了TI2V-Zero方法,它利用预训练的T2V扩散基础模型作为生成先验,通过“重复滑动”策略调节反向去噪过程来引导视频生成,并采用DDPM反演策略来初始化高斯噪声,以确保时间连续性。
- 其它亮点本文的亮点包括:1)提出了一种零调优的方法,避免了昂贵的训练和特定模型设计;2)在特定领域和开放领域数据集上进行了全面实验,表明TI2V-Zero始终优于最近的开放领域TI2V模型;3)TI2V-Zero还可以扩展到其他任务,如视频填充和预测,支持长视频生成。
- 最近在这个领域中,还有一些相关研究,如:1)《Generative Adversarial Text-to-Image Synthesis》;2)《Text-to-Video Generation Grounded by Fine-Grained User Attention》;3)《Neural Talking-Head Synthesis with GAN》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流