TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models

向作者提问

NEW

简介

本文介绍了一种叫做“Text-conditioned image-to-video generation (TI2V)” 的技术，它旨在从给定的图像（例如一张女人的照片）和文本描述（例如“一个女人正在喝水”）开始合成逼真的视频。现有的TI2V框架通常需要在视频-文本数据集上进行昂贵的训练，并需要特定的模型设计来实现文本和图像的条件生成。本文提出了一种名为TI2V-Zero的零样本、无需微调的方法，它利用了一个预训练的文本-视频扩散模型作为生成先验，使其能够根据提供的图像进行条件生成，从而实现TI2V生成，无需任何优化、微调或引入外部模块。为了指导视频生成并加入额外的图像输入，本文提出了一种“重复滑动”策略，它调节了反向去噪过程，使得冻结的扩散模型能够从提供的图像开始逐帧合成视频。为了确保时间上的连续性，本文采用了DDPM反演策略来为每个新合成的帧初始化高斯噪声，并采用重新采样技术来帮助保留视觉细节。本文在特定领域和开放领域的数据集上进行了全面的实验，结果表明TI2V-Zero在表现上一直优于最近的开放领域TI2V模型。此外，本文还展示了TI2V-Zero可以轻松扩展到其他任务，例如当提供更多的图像时，可以用于视频填充和预测。它的自回归设计也支持长视频生成。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在通过提出一种零调优的方法，利用预训练的文本到视频扩散模型生成与给定图像相关的视频，从而解决文本条件下的图像到视频生成问题。
关键思路

本文提出了TI2V-Zero方法，它利用预训练的T2V扩散基础模型作为生成先验，通过“重复滑动”策略调节反向去噪过程来引导视频生成，并采用DDPM反演策略来初始化高斯噪声，以确保时间连续性。
其它亮点

本文的亮点包括：1）提出了一种零调优的方法，避免了昂贵的训练和特定模型设计；2）在特定领域和开放领域数据集上进行了全面实验，表明TI2V-Zero始终优于最近的开放领域TI2V模型；3）TI2V-Zero还可以扩展到其他任务，如视频填充和预测，支持长视频生成。
相关研究

最近在这个领域中，还有一些相关研究，如：1）《Generative Adversarial Text-to-Image Synthesis》；2）《Text-to-Video Generation Grounded by Fine-Grained User Attention》；3）《Neural Talking-Head Synthesis with GAN》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问