Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment

2024年06月18日
  • 简介
    本文指出次优的噪声-数据映射会导致扩散模型训练缓慢。在扩散训练中,当前的方法会将每个图像扩散到整个噪声空间,导致每个噪声层中的每个点都是所有图像的混合。我们强调,这种随机噪声-数据映射的混合使得扩散模型中去噪函数的优化变得复杂。受物理学中不相溶现象的启发,我们提出了一种简单而有效的方法——不相溶扩散,以改善随机噪声-数据映射的混合。在物理学中,相容性可以根据不同的分子间力而异。因此,不相容意味着分子源的混合是可区分的。受此启发,我们提出了一种分配-扩散训练策略。具体来说,在将图像数据扩散到噪声之前,我们通过在小批量中最小化总图像-噪声对距离来分配扩散目标噪声。分配函数类似于外部力,用于分离图像的可扩散区域,从而减轻了扩散训练中固有的困难。我们的方法非常简单,只需要一行代码就可以限制每个图像的可扩散区域,同时保持噪声的高斯分布。这确保每个图像只投影到附近的噪声。为了解决分配算法的高复杂度,我们采用了一种量化分配方法,将计算开销降到可以忽略的水平。实验表明,我们的方法在CIFAR数据集上为一致性模型和DDIM实现了高达3倍的快速训练,并在CelebA数据集上为一致性模型实现了高达1.3倍的快速训练。此外,我们对不相溶扩散进行了彻底的分析,阐明了它如何提高扩散训练速度同时提高保真度。
  • 图表
  • 解决问题
    本文旨在解决扩散模型训练中,噪声数据映射的次优性导致训练缓慢的问题。当前方法在扩散训练期间,在整个噪声空间中扩散每个图像,导致每个噪声层中混合了所有图像。本文强调这种随机混合的噪声数据映射使得扩散模型的去噪函数优化变得复杂。
  • 关键思路
    本文提出了一种简单有效的方法——不相容扩散(Immiscible Diffusion)来改善随机混合的噪声数据映射。在扩散图像数据到噪声之前,我们通过在mini-batch中最小化总图像-噪声对距离来为图像数据分配扩散目标噪声。这种分配类似于外部力来分离图像的可扩散区域,从而缓解了扩散训练中固有的困难。
  • 其它亮点
    本文提出的方法在代码实现上非常简单,只需要一行代码来限制每个图像的可扩散区域,同时保持噪声的高斯分布。为了减少分配算法的高复杂度,本文采用了量化分配方法,将计算开销降到了可以忽略的水平。实验结果表明,本文的方法在CIFAR数据集上的一致性模型和DDIM可以实现高达3倍的训练速度提升,在CelebA数据集上的一致性模型可以实现高达1.3倍的训练速度提升。
  • 相关研究
    在这个领域中,最近的相关研究包括:《Noise2Noise: Learning Image Restoration without Clean Data》、《On the Variance of the Adaptive Learning Rate and Beyond》、《Training Generative Adversarial Networks with Limited Data》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论