Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

简介

扩散模型是图像和视频合成进步的主要驱动力，但由于推理速度慢而受到限制。蒸馏方法，如最近引入的对抗扩散蒸馏（ADD），旨在将模型从多次推理转变为单步推理，但代价是需要昂贵且困难的优化，因为它依赖于固定的预训练DINOv2鉴别器。我们介绍了一种新的蒸馏方法——潜在对抗扩散蒸馏（LADD），克服了ADD的限制。与基于像素的ADD不同，LADD利用预训练潜在扩散模型的生成特征。这种方法简化了训练并增强了性能，实现了高分辨率多方位比例的图像合成。我们将LADD应用于Stable Diffusion 3（8B）中，获得了SD3-Turbo，这是一个快速模型，仅使用四个未引导的采样步骤就可以达到与最先进的文本到图像生成器相匹配的性能。此外，我们系统地研究了其扩展行为，并展示了LADD在各种应用中的有效性，如图像编辑和修复。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决图像和视频合成中的扩散模型推理速度缓慢的问题，并提出了一种新的蒸馏方法LADD，以简化训练和提高性能。
关键思路

LADD利用预训练的潜在扩散模型的生成特征，与ADD不同，这种方法简化了训练并增强了性能，实现了高分辨率多方位比例的图像合成。
其它亮点

通过将LADD应用于Stable Diffusion 3（8B）来获得SD3-Turbo，这是一个快速模型，仅使用四个未引导的采样步骤即可与最先进的文本到图像生成器的性能相匹配。此外，论文还系统地研究了其扩展行为，并展示了LADD在各种应用中的有效性，如图像编辑和修复。
相关研究

最近的相关研究包括：Adversarial Diffusion Distillation (ADD)，DINOv2 discriminator等。

Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

提问交流

提问交流