Hierarchical Patch Diffusion Models for High-Resolution Video Generation

简介

扩散模型在图像和视频合成方面表现出了卓越的性能。然而，将它们扩展到高分辨率输入是具有挑战性的，需要将扩散管道重组为多个独立组件，从而限制了可扩展性并复杂化了下游应用。这使得训练非常高效，并在高分辨率视频上解锁了端到端优化。我们以两种原则性的方式改进了PDM。首先，为了强制实现补丁之间的一致性，我们开发了深度上下文融合——一种将上下文信息以分层方式从低尺度传播到高尺度补丁的架构技术。其次，为了加速训练和推断，我们提出了自适应计算，它将更多的网络容量和计算分配给粗略的图像细节。由此产生的模型在UCF-101 $256^2$条件视频生成中设置了新的最先进的FVD得分为66.32，Inception得分为87.68，超过了最近的方法100%以上。然后，我们展示它可以从基础$36\times64$低分辨率生成器快速微调，用于高分辨率$64\times288\times512$文本到视频合成。据我们所知，我们的模型是第一个完全在这种高分辨率上进行端到端训练的基于扩散的架构。项目网页：https://snap-research.github.io/hpdm。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决扩展概率扩散模型（PDMs）到高分辨率图像和视频合成的挑战，通过提出两种优化方法来实现这一目标。
关键思路

论文提出了两种优化方法：深度上下文融合和自适应计算，以提高PDMs的可扩展性和效率。
其它亮点

实验结果表明，该模型在UCF-101数据集上实现了最新的FVD得分为66.32和Inception Score为87.68的成果，超过了最近的方法。此外，该模型还可以快速微调用于高分辨率的文本到视频合成。论文的代码和数据集都已经公开。
相关研究

最近相关的研究包括：《Generative Models for Effective ML on Private, Decentralized Datasets》、《Diffusion Models Beat GANs on Image Synthesis》等。

Hierarchical Patch Diffusion Models for High-Resolution Video Generation

提问交流

提问交流