MLCM: Multistep Consistency Distillation of Latent Diffusion Model

2024年06月09日
  • 简介
    将大型潜在扩散模型(LDM)提炼为采样速度更快的模型正吸引越来越多的研究兴趣。然而,现有方法大多面临两难困境,要么依赖于多个不同采样预算的独立提炼模型,要么在有限的(例如2-4)和/或中等的(例如5-8)采样步骤中牺牲生成质量。为了解决这些问题,我们将最近的多步一致性提炼(MCD)策略扩展到代表性的LDM中,建立了多步潜在一致性模型(MLCM)方法,用于低成本高质量的图像合成。由于MCD的优势,MLCM成为各种采样步骤的统一模型。我们进一步增强了MCD的渐进训练策略,以增强分段内的一致性,提高少量步骤生成的质量。我们使用教师模型采样轨迹中的状态作为MLCM的训练数据,以减少对高质量训练数据集的要求,并弥合提炼模型的训练和推理之间的差距。MLCM兼容偏好学习策略,以进一步提高视觉质量和美感。实证上,MLCM可以仅使用2-8个采样步骤生成高质量、令人愉悦的图像。在MSCOCO-2017 5K基准测试中,从SDXL提炼的MLCM在仅4个步骤中获得了33.30的CLIP分数,6.19的美学分数和1.20的图像奖励,大大超过了4步LCM [23]、8步SDXL-Lightning [17]和8步HyperSD [33]。我们还展示了MLCM在可控生成、图像风格转移和中文到图像生成等应用中的多样性。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:论文旨在解决将大型潜在扩散模型(LDM)蒸馏为快速采样模型的问题,同时保持高质量的图像生成。
  • 关键思路
    关键思路:论文采用多步一致性蒸馏(MCD)策略扩展到代表性的LDM,建立多步潜在一致性模型(MLCM)方法,通过渐进式训练策略来增强分段间一致性,提高少步生成的质量。
  • 其它亮点
    其他亮点:MLCM是一个统一的模型,适用于各种采样步骤,能够生成高质量、令人愉悦的图像。在MSCOCO-2017 5K基准测试中,MLCM在只有4步的情况下,从SDXL中蒸馏出来的CLIP分数为33.30,美学分数为6.19,图像奖励为1.20,大大超过了4步LCM,8步SDXL-Lightning和8步HyperSD。实验设计包括可控生成、图像风格转移和中文到图像生成。论文开源代码。
  • 相关研究
    相关研究:最近的相关研究包括多步一致性蒸馏和大型潜在扩散模型。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问