DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents

简介

扩散模型(Diffusion models, DMs)已经彻底改变了生成学习。它们利用扩散过程将数据编码为简单的高斯分布。然而，将一个复杂的、可能是多峰的数据分布编码为单一的连续高斯分布，可以说是一个不必要的困难学习问题。我们提出了离散-连续潜变量扩散模型(Discrete-Continuous Latent Variable Diffusion Models, DisCo-Diff)，通过引入互补的离散潜变量来简化这个任务。我们使用可学习的离散潜变量来扩充DMs，这些变量由编码器推断，并对DM和编码器进行端到端的训练。DisCo-Diff不依赖于预训练网络，使得该框架具有普适性。离散潜变量通过减少DM生成ODE的曲率，显著简化了学习DM的复杂噪声-数据映射。另外，一个自回归变换器模型用于离散潜变量的分布，这是一个简单的步骤，因为DisCo-Diff只需要少量离散变量和小型码本。我们在玩具数据、几个图像合成任务以及分子对接方面验证了DisCo-Diff，并发现引入离散潜变量可以始终提高模型性能。例如，DisCo-Diff在ODE采样器上实现了ImageNet-64/128数据集上有条件类别的最先进FID分数。
图表
解决问题

DisCo-Diff试图简化Diffusion Models（DMs）的学习任务，通过引入离散潜变量来解决将复杂、多峰数据分布编码为单一高斯分布的问题。这是否是一个新问题？
关键思路

DisCo-Diff通过引入可学习的离散潜变量来简化Diffusion Models（DMs）的学习任务，同时通过减少DM的生成ODE曲率来降低学习复杂噪声到数据映射的难度。DisCo-Diff还使用自回归Transformer模型来建模离散潜变量的分布。相比当前领域的研究，DisCo-Diff的关键思路是引入离散潜变量来简化学习任务。
其它亮点

论文在玩具数据、图像合成和分子对接等任务上验证了DisCo-Diff的有效性，并发现引入离散潜变量可以显著提高模型性能。DisCo-Diff不依赖预训练网络，具有普适性。论文使用ODE采样器在class-conditioned ImageNet-64/128数据集上实现了最先进的FID分数。论文还提供了开源代码。
相关研究

在该领域的相关研究包括：Diffusion Models (DMs)、Variational Autoencoders (VAEs)、Generative Adversarial Networks (GANs)等。

DisCo-Diff: Enhancing Continuous Diffusion Models with Discrete Latents

评论