MLCM: Multistep Consistency Distillation of Latent Diffusion Model

简介

将大型潜在扩散模型（LDM）提炼为采样速度更快的模型正吸引越来越多的研究兴趣。然而，现有方法大多面临两难困境，要么依赖于多个不同采样预算的独立提炼模型，要么在有限的（例如2-4）和/或中等的（例如5-8）采样步骤中牺牲生成质量。为了解决这些问题，我们将最近的多步一致性提炼（MCD）策略扩展到代表性的LDM中，建立了多步潜在一致性模型（MLCM）方法，用于低成本高质量的图像合成。由于MCD的优势，MLCM成为各种采样步骤的统一模型。我们进一步增强了MCD的渐进训练策略，以增强分段内的一致性，提高少量步骤生成的质量。我们使用教师模型采样轨迹中的状态作为MLCM的训练数据，以减少对高质量训练数据集的要求，并弥合提炼模型的训练和推理之间的差距。MLCM兼容偏好学习策略，以进一步提高视觉质量和美感。实证上，MLCM可以仅使用2-8个采样步骤生成高质量、令人愉悦的图像。在MSCOCO-2017 5K基准测试中，从SDXL提炼的MLCM在仅4个步骤中获得了33.30的CLIP分数，6.19的美学分数和1.20的图像奖励，大大超过了4步LCM [23]、8步SDXL-Lightning [17]和8步HyperSD [33]。我们还展示了MLCM在可控生成、图像风格转移和中文到图像生成等应用中的多样性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文旨在解决将大型潜在扩散模型（LDM）蒸馏为快速采样模型的问题，同时保持高质量的图像生成。
关键思路

关键思路：论文采用多步一致性蒸馏（MCD）策略扩展到代表性的LDM，建立多步潜在一致性模型（MLCM）方法，通过渐进式训练策略来增强分段间一致性，提高少步生成的质量。
其它亮点

其他亮点：MLCM是一个统一的模型，适用于各种采样步骤，能够生成高质量、令人愉悦的图像。在MSCOCO-2017 5K基准测试中，MLCM在只有4步的情况下，从SDXL中蒸馏出来的CLIP分数为33.30，美学分数为6.19，图像奖励为1.20，大大超过了4步LCM，8步SDXL-Lightning和8步HyperSD。实验设计包括可控生成、图像风格转移和中文到图像生成。论文开源代码。
相关研究

相关研究：最近的相关研究包括多步一致性蒸馏和大型潜在扩散模型。

MLCM: Multistep Consistency Distillation of Latent Diffusion Model

提问交流

提问交流