DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents

2024年07月03日
  • 简介
    扩散模型(Diffusion models, DMs)已经彻底改变了生成学习。它们利用扩散过程将数据编码为简单的高斯分布。然而,将一个复杂的、可能是多峰的数据分布编码为单一的连续高斯分布,可以说是一个不必要的困难学习问题。我们提出了离散-连续潜变量扩散模型(Discrete-Continuous Latent Variable Diffusion Models, DisCo-Diff),通过引入互补的离散潜变量来简化这个任务。我们使用可学习的离散潜变量来扩充DMs,这些变量由编码器推断,并对DM和编码器进行端到端的训练。DisCo-Diff不依赖于预训练网络,使得该框架具有普适性。离散潜变量通过减少DM生成ODE的曲率,显著简化了学习DM的复杂噪声-数据映射。另外,一个自回归变换器模型用于离散潜变量的分布,这是一个简单的步骤,因为DisCo-Diff只需要少量离散变量和小型码本。我们在玩具数据、几个图像合成任务以及分子对接方面验证了DisCo-Diff,并发现引入离散潜变量可以始终提高模型性能。例如,DisCo-Diff在ODE采样器上实现了ImageNet-64/128数据集上有条件类别的最先进FID分数。
  • 图表
  • 解决问题
    DisCo-Diff试图简化Diffusion Models(DMs)的学习任务,通过引入离散潜变量来解决将复杂、多峰数据分布编码为单一高斯分布的问题。这是否是一个新问题?
  • 关键思路
    DisCo-Diff通过引入可学习的离散潜变量来简化Diffusion Models(DMs)的学习任务,同时通过减少DM的生成ODE曲率来降低学习复杂噪声到数据映射的难度。DisCo-Diff还使用自回归Transformer模型来建模离散潜变量的分布。相比当前领域的研究,DisCo-Diff的关键思路是引入离散潜变量来简化学习任务。
  • 其它亮点
    论文在玩具数据、图像合成和分子对接等任务上验证了DisCo-Diff的有效性,并发现引入离散潜变量可以显著提高模型性能。DisCo-Diff不依赖预训练网络,具有普适性。论文使用ODE采样器在class-conditioned ImageNet-64/128数据集上实现了最先进的FID分数。论文还提供了开源代码。
  • 相关研究
    在该领域的相关研究包括:Diffusion Models (DMs)、Variational Autoencoders (VAEs)、Generative Adversarial Networks (GANs)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论