TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models

简介

最近的文本到视频生成技术已经展示了强大的扩散模型的实用性。然而，当将扩散模型应用于静态图像的动画生成（即图像到视频生成）时，这个问题并不是微不足道的。这个困难源于连续动画帧的扩散过程不仅应该保持与给定图像的准确对齐，还应该追求相邻帧之间的时间上的连贯性。为了缓解这个问题，我们提出了TRIP，一种新的图像到视频扩散范式，它基于从静态图像中导出的图像噪声先验，通过时间残差学习来联合触发帧间关系推理和缓解时间上的连贯建模。技术上，图像噪声先验首先通过基于静态图像和有噪声的视频潜在代码的单步后向扩散过程获得。接下来，TRIP执行一种类似残差的双路径方案进行噪声预测：1）一条快捷路径，直接将图像噪声先验作为每帧的参考噪声，以增强第一帧和随后帧之间的对齐；2）一条残差路径，利用有噪声的视频和静态图像潜在代码上的3D-UNet来实现帧间关系推理，从而便于学习每帧的残差噪声。此外，每帧的参考和残差噪声都通过注意机制动态合并，用于最终视频生成。在WebVid-10M、DTDB和MSR-VTT数据集上进行的大量实验表明，我们的TRIP对于图像到视频的生成是有效的。请参阅我们的项目页面https://trip-i2v.github.io/TRIP/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决图像到视频生成中的难点问题，即如何在保持与给定图像忠实对齐的同时，追求相邻帧之间的时间连贯性。
关键思路

本文提出了一种新的图像到视频扩散范式，称为TRIP，该范式以从静态图像中派生的图像噪声先验为基础，通过时间残差学习和注意力机制来实现帧间关系推理和时间连贯性建模。
其它亮点

本文的亮点包括使用TRIP实现了高质量的图像到视频生成，使用了WebVid-10M、DTDB和MSR-VTT数据集进行了广泛的实验，证明了TRIP的有效性。此外，本文还开源了代码，方便其他研究者使用和参考。
相关研究

在这个领域中，近期还有一些相关的研究，如：《Generative Adversarial Networks for Video Generation and Compressed Video Action Recognition》、《Video Generation from Text: A Survey》等。

TRIP: Temporal Residual Learning with Image Noise Prior for Image-to-Video Diffusion Models

提问交流

提问交流