Learning to Discretize Denoising Diffusion ODEs

2024年05月24日
  • 简介
    Diffusion Probabilistic Models(DPM)是功能强大的生成模型,在各个领域,包括图像合成和3D点云生成方面表现出竞争力。然而,从预训练的DPM中进行采样涉及多个神经功能评估(NFE)来将高斯噪声样本转换为图像,与GAN或VAE等单步生成模型相比,导致更高的计算成本。因此,一个关键问题是减少NFE同时保持生成质量。为此,我们提出了LD3,这是一个轻量级的框架,用于在从DPM包含的扩散ODE进行采样时学习时间离散化。LD3可以与各种扩散ODE求解器相结合,并在不重新训练资源密集型神经网络的情况下始终提高性能。我们在理论和实证方面证明了LD3相对于基于蒸馏的方法提高了采样效率,而且没有过多的计算开销。我们在5个数据集上进行了广泛的实验评估,涵盖无条件和有条件的像素空间和潜在空间DPM的采样。例如,在单个GPU上进行约5分钟的训练,我们的方法将CIFAR10的FID分数从6.63降低到2.68(7 NFE),在大约20分钟内,将ImageNet-256的类别条件FID从8.51降低到5.03(5 NFE)。LD3补充了蒸馏方法,为从预训练的扩散模型进行采样提供了更有效的方法。
  • 图表
  • 解决问题
    论文旨在减少从预训练的DPMs中采样所需的神经函数评估次数,以降低计算成本,同时保持生成质量。
  • 关键思路
    LD3是一种轻量级框架,用于在从DPMs中采样时学习时间离散化,从而减少神经函数评估次数,提高采样效率。
  • 其它亮点
    LD3在5个数据集上进行了广泛的实验,包括像素空间和潜空间DPMs的无条件和有条件采样。LD3能够显著提高采样效率,而不需要重新训练资源密集型神经网络。在单个GPU上进行5分钟的训练,LD3将CIFAR10的FID分数从6.63降低到2.68(7 NFE),在约20分钟内将ImageNet-256的FID从8.51降低到5.03(5 NFE)。LD3是对蒸馏方法的补充,为从预训练的扩散模型中采样提供了更高效的方法。
  • 相关研究
    与此相关的最近研究包括使用蒸馏技术来减少DPMs中的神经函数评估次数,以及使用GAN和VAE等单步生成模型来减少计算成本。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论