- 简介潜在一致性模型(LCMs)在加速文本到图像生成任务方面取得了令人瞩目的表现,使用最少的推理步骤生成高质量图像。LCMs是从预训练的潜在扩散模型(LDMs)中提炼出来的,只需要大约32个A100 GPU训练小时。本报告进一步扩展了LCMs的潜力,具体体现在两个方面:首先,通过将LoRA蒸馏应用于稳定扩散模型,包括SD-V1.5、SSD-1B和SDXL,我们将LCM的范围扩展到更大的模型,内存消耗显著降低,生成的图像质量更好。其次,我们将通过LCM蒸馏获得的LoRA参数确定为通用的稳定扩散加速模块,命名为LCM-LoRA。LCM-LoRA可以直接插入各种稳定扩散微调模型或LoRAs中,无需训练,因此代表着适用于各种图像生成任务的通用加速器。与之前的数值PF-ODE求解器(如DDIM、DPM-Solver)相比,LCM-LoRA可以看作是一个插件式的神经PF-ODE求解器,具有强大的泛化能力。项目页面:https://github.com/luosiallen/latent-consistency-model。
- 图表
- 解决问题本论文旨在扩展潜在一致性模型(LCMs)的应用范围,并将其用作通用的稳定扩散加速模块,以提高图像生成任务的效率。
- 关键思路通过对稳定扩散模型进行LoRA蒸馏,将其用作LCMs的加速模块,从而扩展了LCMs的应用范围。同时,通过将LCM-LoRA插入不同的稳定扩散微调模型或LoRAs中,可以实现通用的加速器。
- 其它亮点论文使用LoRA蒸馏扩展了LCMs的应用范围,并提出了通用的加速模块LCM-LoRA。实验结果表明,LCM-LoRA可以大大提高图像生成任务的效率,同时具有强大的泛化能力。论文提供了代码和项目页面。
- 相关论文包括: 1. Latent Diffusion Models (LDMs) by Jonathan Ho and Ajay Jain 2. DDIM by Yilun Du et al. 3. DPM-Solver by Yang Song et al.
沙发等你来抢
去评论
评论
沙发等你来抢