LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

简介

潜在一致性模型（LCMs）在加速文本到图像生成任务方面取得了令人瞩目的表现，使用最少的推理步骤生成高质量图像。LCMs是从预训练的潜在扩散模型（LDMs）中提炼出来的，只需要大约32个A100 GPU训练小时。本报告进一步扩展了LCMs的潜力，具体体现在两个方面：首先，通过将LoRA蒸馏应用于稳定扩散模型，包括SD-V1.5、SSD-1B和SDXL，我们将LCM的范围扩展到更大的模型，内存消耗显著降低，生成的图像质量更好。其次，我们将通过LCM蒸馏获得的LoRA参数确定为通用的稳定扩散加速模块，命名为LCM-LoRA。LCM-LoRA可以直接插入各种稳定扩散微调模型或LoRAs中，无需训练，因此代表着适用于各种图像生成任务的通用加速器。与之前的数值PF-ODE求解器（如DDIM、DPM-Solver）相比，LCM-LoRA可以看作是一个插件式的神经PF-ODE求解器，具有强大的泛化能力。项目页面：https://github.com/luosiallen/latent-consistency-model。
图表
解决问题

本论文旨在扩展潜在一致性模型（LCMs）的应用范围，并将其用作通用的稳定扩散加速模块，以提高图像生成任务的效率。
关键思路

通过对稳定扩散模型进行LoRA蒸馏，将其用作LCMs的加速模块，从而扩展了LCMs的应用范围。同时，通过将LCM-LoRA插入不同的稳定扩散微调模型或LoRAs中，可以实现通用的加速器。
其它亮点

论文使用LoRA蒸馏扩展了LCMs的应用范围，并提出了通用的加速模块LCM-LoRA。实验结果表明，LCM-LoRA可以大大提高图像生成任务的效率，同时具有强大的泛化能力。论文提供了代码和项目页面。
相关研究

相关论文包括： 1. Latent Diffusion Models (LDMs) by Jonathan Ho and Ajay Jain 2. DDIM by Yilun Du et al. 3. DPM-Solver by Yang Song et al.

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

评论