- 简介扩散模型是图像和视频合成进步的主要驱动力,但由于推理速度慢而受到限制。蒸馏方法,如最近引入的对抗扩散蒸馏(ADD),旨在将模型从多次推理转变为单步推理,但代价是需要昂贵且困难的优化,因为它依赖于固定的预训练DINOv2鉴别器。我们介绍了一种新的蒸馏方法——潜在对抗扩散蒸馏(LADD),克服了ADD的限制。与基于像素的ADD不同,LADD利用预训练潜在扩散模型的生成特征。这种方法简化了训练并增强了性能,实现了高分辨率多方位比例的图像合成。我们将LADD应用于Stable Diffusion 3(8B)中,获得了SD3-Turbo,这是一个快速模型,仅使用四个未引导的采样步骤就可以达到与最先进的文本到图像生成器相匹配的性能。此外,我们系统地研究了其扩展行为,并展示了LADD在各种应用中的有效性,如图像编辑和修复。
-
- 图表
- 解决问题本论文旨在解决图像和视频合成中的扩散模型推理速度缓慢的问题,并提出了一种新的蒸馏方法LADD,以简化训练和提高性能。
- 关键思路LADD利用预训练的潜在扩散模型的生成特征,与ADD不同,这种方法简化了训练并增强了性能,实现了高分辨率多方位比例的图像合成。
- 其它亮点通过将LADD应用于Stable Diffusion 3(8B)来获得SD3-Turbo,这是一个快速模型,仅使用四个未引导的采样步骤即可与最先进的文本到图像生成器的性能相匹配。此外,论文还系统地研究了其扩展行为,并展示了LADD在各种应用中的有效性,如图像编辑和修复。
- 最近的相关研究包括:Adversarial Diffusion Distillation (ADD),DINOv2 discriminator等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流