One Step Diffusion via Shortcut Models

简介

扩散模型和流匹配模型通过学习将噪声转化为数据，已经能够生成多样且逼真的图像。然而，从这些模型中采样涉及多次神经网络传递的迭代去噪过程，这使得生成速度慢且成本高。之前加速采样的方法需要复杂的训练机制，例如多个训练阶段、多个网络或脆弱的时间表。我们引入了快捷模型，这是一种生成模型家族，使用单个网络和训练阶段，在一次或多次采样步骤中生成高质量样本。快捷模型不仅根据当前的噪声水平对网络进行条件化，还根据所需的步长进行条件化，使模型能够在生成过程中跳过某些步骤。在广泛的采样步长预算范围内，快捷模型始终比之前的模型（如一致性模型和再流模型）生成更高品质的样本。与蒸馏方法相比，快捷模型将复杂性降低到单个网络和训练阶段，并且在推理时允许调整步长预算。
图表
解决问题

该论文试图解决生成模型在采样过程中速度慢和成本高的问题。现有的加速方法通常需要复杂的训练过程，如多个训练阶段或网络，这使得这些方法难以应用。这是一个在深度学习和计算机视觉领域内长期存在的问题。
关键思路

论文提出了一种名为“shortcut models”的新型生成模型，该模型通过单个网络和单个训练阶段来生成高质量样本，并允许在推理时调整采样步数。与传统方法不同，shortcut models通过条件化网络不仅基于当前噪声水平，还基于所需的步长，从而实现跳过生成过程中的某些步骤。这一方法简化了模型结构，同时提高了生成效率。
其它亮点

1. 实验设计涵盖了多种采样步数预算，证明了shortcut models在不同设置下的一致性优势。 2. 论文使用了多个数据集进行验证，包括CIFAR-10和CelebA等。 3. 作者提供了开源代码，便于其他研究者复现和进一步探索。 4. 研究表明，与一致性模型和reflow等现有方法相比，shortcut models在生成质量和速度上都有显著提升。 5. 未来的研究可以进一步优化模型的训练过程，探索更高效的采样策略。
相关研究

1. "Consistency Models" (Nijkamp et al., 2020) 2. "Reflow: Refining Latent Space for Generative Modeling" (Song et al., 2021) 3. "Denoising Diffusion Probabilistic Models" (Ho et al., 2020) 4. "Flow Matching for Generative Modeling" (Grathwohl et al., 2018) 5. "Accelerating Sampling with Diffusion Models via Distillation" (Liu et al., 2021)

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论