Soft Diffusion：谷歌新框架从通用扩散过程中正确调度、学习和采样

我们知道，基于分数的模型和去噪扩散概率模型（DDPM）是两类强大的生成模型，它们通过反转扩散过程来产生样本。这两类模型已经在 Yang Song 等研究者的论文《Score-based generative modeling through stochastic differential equations》中统一到了单一的框架下，并被广泛地称为扩散模型。

目前，扩散模型在包括图像、音频、视频生成以及解决逆问题等一系列应用中取得了巨大的成功。Tero Karras 等研究者在论文《Elucidating the design space of diffusionbased generative models》中对扩散模型的设计空间进行了分析，并确定了 3 个阶段，分别为 i) 选择噪声水平的调度，ii) 选择网络参数化（每个参数化生成一个不同的损失函数），iii) 设计采样算法。

近日，在谷歌研究院和 UT-Austin 合作的一篇 arXiv 论文《Soft Diffusion: Score Matching for General Corruptions》中，几位研究者认为扩散模型仍有一个重要的步骤：损坏（corrupt）。一般来说，损坏是一个添加不同幅度噪声的过程，对于 DDMP 还需要重缩放。虽然有人尝试使用不同的分布来进行扩散，但仍缺乏一个通用的框架。因此，研究者提出了一个用于更通用损坏过程的扩散模型设计框架。

具体地，他们提出了一个名为 Soft Score Matching 的新训练目标和一种新颖的采样方法 Momentum Sampler。理论结果表明，对于满足正则条件的损坏过程，Soft Score MatchIng 能够学习它们的分数（即似然梯度），扩散必须将任何图像转换为具有非零似然的任何图像。

在实验部分，研究者在 CelebA 以及 CIFAR-10 上训练模型，其中在 CelebA 上训练的模型实现了线性扩散模型的 SOTA FID 分数——1.85。同时与使用原版高斯去噪扩散训练的模型相比，研究者训练的模型速度显著更快。

论文地址：https://arxiv.org/pdf/2209.05442.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Soft Diffusion：谷歌新框架从通用扩散过程中正确调度、学习和采样

评论