- 简介为了解决扩散模型(DMs)中使用的迭代采样过程常常导致的推理延迟问题,我们提出了随机一致性蒸馏(SCott)来实现加速文本到图像的生成,只需进行1-2个采样步骤即可获得高质量的生成图像,添加更多步骤可以进一步提高生成质量。与普通的一致性蒸馏(CD)不同,CD将预训练的教师模型基于普通微分方程求解器的采样过程蒸馏到学生模型中,而SCott探索了将随机微分方程(SDE)求解器集成到CD中的可能性,并验证了其有效性,以充分释放教师模型的潜力。SCott还采用了精心设计的策略来控制SDE求解器的噪声强度和采样过程。进一步地,我们还引入了对抗损失来增强稀有采样步骤下的样本质量。在MSCOCO-2017 5K数据集上,使用Stable Diffusion-V1.5教师模型,SCott实现了22.1的FID(Frechet Inceptio Distance),超过了1步InstaFlow(Liu等人,2023年)的23.4,并与4步UFOGen(Xue等人,2023b)相当。此外,对于高分辨率图像生成(Luo等人,2023a),SCott可以产生比其他一致性模型更多样化的样本,合格度量指标提高了16%。代码和检查点即将发布。
- 图表
- 解决问题本文旨在解决扩散模型(DM)迭代采样过程中的推理延迟问题,提出了一种名为SCott的随机一致性蒸馏方法,通过将随机微分方程(SDE)求解器集成到一致性蒸馏中,以加速文本到图像生成过程。该方法可以在只进行1-2个采样步骤的情况下获得高质量的生成结果,并通过增加额外的步骤进一步提高生成质量。
- 关键思路SCott方法通过将SDE求解器集成到一致性蒸馏中,控制噪声强度和采样过程,从而加速文本到图像生成过程。相比当前领域的研究,该方法在提高生成质量和多样性方面有新的突破。
- 其它亮点该方法在MSCOCO-2017 5K数据集上进行了实验,使用了稳定扩散-V1.5模型作为教师模型,达到了22.1的FID值,超过了1步InstaFlow和与4步UFOGen相匹配的FID值。此外,该方法在高分辨率图像生成方面具有更多的多样性,有16%的改进。该论文提供了代码和检查点。
- 最近的相关研究包括:Liu等人的InstaFlow(2023)和Xue等人的UFOGen(2023b)。
沙发等你来抢
去评论
评论
沙发等你来抢