Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution

简介

基于文本的扩散模型在生成和编辑方面取得了显著的成功，展示了利用其生成先验增强视觉内容的巨大潜力。然而，由于扩散模型固有的随机性，将这些模型应用于视频超分辨率仍然具有挑战性，因为视频超分辨率对输出保真度和时间一致性的要求很高。我们的研究引入了Upscale-A-Video，这是一个文本引导的潜在扩散框架，用于视频放大。该框架通过两个关键机制确保时间上的一致性：局部上，它将时间层集成到U-Net和VAE-Decoder中，保持短序列内的一致性；全局上，引入了一个流引导的经常性潜在传播模块，以增强整个视频的稳定性，通过在整个序列中传播和融合潜在信息。由于扩散范式，我们的模型还提供了更大的灵活性，允许文本提示引导纹理创建和可调噪声水平来平衡恢复和生成之间的权衡，实现保真度和质量之间的平衡。广泛的实验表明，Upscale-A-Video在合成和实际基准测试以及人工智能生成的视频方面均优于现有方法，展示了令人印象深刻的视觉逼真和时间一致性。
图表
解决问题

本论文旨在解决视频超分辨率问题中的时序连续性和质量问题，通过引入文本引导的潜在扩散框架，提供更大的灵活性和可调节的噪声水平来平衡恢复和生成之间的权衡。
关键思路

本论文的关键思路是通过引入本地和全局的机制来确保时序连贯性，其中本地机制将时间层集成到U-Net和VAE-Decoder中，全局机制则引入了流引导的循环潜在传播模块来增强整个视频的稳定性。
其它亮点

本文的亮点在于提出了一种新颖的文本引导的潜在扩散框架，可以在视频超分辨率问题中提供更大的灵活性和可调节的噪声水平来平衡恢复和生成之间的权衡。实验结果表明，该方法在合成和真实世界基准测试中均优于现有方法，并展示了令人印象深刻的视觉现实感和时序连贯性。
相关研究

在视频超分辨率问题中，还有许多相关的研究正在进行。例如，'Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation'和 'Deep Video Super-Resolution with Temporal Group Attention'。

Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution

评论