Pix2Gif: Motion-Guided Diffusion for GIF Generation

简介

我们提出了Pix2Gif，一种用于图像到GIF（视频）生成的运动引导扩散模型。我们通过将任务定义为由文本和运动大小提示引导的图像翻译问题来解决这个问题，如预告片所示。为了确保模型遵循运动引导，我们提出了一种新的运动引导变形模块，以在两种类型的提示条件下空间转换源图像的特征。此外，我们引入了感知损失，以确保转换后的特征映射保持在与目标图像相同的空间中，从而确保内容的一致性和连贯性。为了准备模型训练，我们从TGIF视频字幕数据集中提取了连贯的图像帧，该数据集提供了有关主题的时间变化的丰富信息。在预训练后，我们以零样本的方式将我们的模型应用于多个视频数据集。广泛的定性和定量实验证明了我们的模型的有效性--它不仅捕捉了来自文本的语义提示，还捕捉了来自运动引导的空间提示。我们使用16xV100 GPU的单个节点训练所有模型。代码、数据集和模型公开发布在以下网址：https://hiteshk03.github.io/Pix2Gif/。
图表
解决问题

Pix2Gif试图解决的问题是图像到GIF（视频）生成的问题，通过将任务定义为受文本和运动大小提示控制的图像转换问题来解决。这是一个新的问题。
关键思路

论文的关键思路是使用运动引导变形模块来空间转换源图像的特征，以确保模型遵循运动引导，并引入感知损失以确保变换后的特征图与目标图像保持在同一空间中，从而保证内容的一致性和连贯性。
其它亮点

论文提出了一种新的运动引导变形模块，使用了TGIF视频-字幕数据集进行数据精心筛选和准备，并在多个视频数据集上进行了实验验证，证明了模型的有效性。作者还公开了代码、数据集和模型。
相关研究

最近在这个领域中，还有一些相关的研究，如：1. Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks；2. Vid2Game: Controllable Characters Extracted from Real-World Videos；3. Video Generation from Text；4. Video Generation from Text using Video-Text Dual-Embedding Networks。

Pix2Gif: Motion-Guided Diffusion for GIF Generation

评论