在这篇论文中,来自布加勒斯特大学、中佛罗里达大学的 Mubarak Shah(IEEE Fellow)等几位研究者对计算机视觉中的 100 多篇去噪扩散模型论文进行了全面回顾。

 

扩散模型在深度生成模型中自成一派,最近成为计算机视觉领域最热门的话题之一(见图 1)。扩散模型展示了强大的生成能力,无论是生成高水平的细节还是其生成的多样性,都让人印象深刻。

 

 

我们甚至可以说,这些生成式模型将生成式建模领域的标准提高到了一个全新的水平,尤其是 Imagen 和 Latent Diffusion Models(LDM)等模型。迄今为止,扩散模型已被应用于各种生成式建模任务,如图像生成(image generation)、图像超分(mage super-resolution)、图像修复( image inpainting)、图像编辑(image editing)、图像转换(image-to-image translation)等等。此外,人们发现扩散模型学习到的潜在表征在鉴别性任务中也很有用,例如,图像分割、分类和异常检测。这证实了去噪扩散模型具有广泛的适用性,还有待发现进一步的应用场景。此外,强大的潜在表征学习能力还创造了与表征学习的联系,表征学习是一个研究学习强大数据表征方法的综合领域,涵盖了从新型神经结构的设计到学习策略的发展等多种算法领域。

 

根据图 1 所示的图表,关于扩散模型的论文数量正在以非常快的速度增长。为了概述这个快速发展的主题从过去到现在的成就,本文作者对计算机视觉中去噪扩散模型的文章进行了全面回顾。

 

 

论文链接:https://arxiv.org/pdf/2209.04747.pdf

 

更准确地说,本文关注的文章满足以下定义:具有(1)前向扩散阶段,在这个过程中对输入数据添加高斯噪声,来逐步实现扰动;(2)反向 / 后向扩散阶段的一类深度生成模型,在这个过程中,生成模型的任务是通过学习逐步反转扩散过程,从扩散(噪声)数据恢复原始输入数据。

 

根据研究者的说法,至少有三个子类别的扩散模型符合上述定义。

 

第一个子类别包括去噪扩散概率模型(DDPMs),其灵感来自非平衡热力学理论。DDPMs 是潜变量模型,采用潜变量来估计概率分布。从这个角度来看,DDPMs 可以被看作是一种特殊的变分自编码器(VAEs),其中正向扩散阶段对应于 VAE 内部的编码过程,而反向扩散阶段对应于解码过程。

 

第二个子类别的代表是噪声条件下的分数网络(NCSN),基于分数匹配机制训练得到一个共享的神经网络,用来估计不同噪声水平下扰动数据分布的分数函数(定义为对数密度的梯度)。

 

随机微分方程(SDEs)代表了另一种建立扩散模型的方式,形成了扩散模型的第三个子类别。通过正向和反向 SDEs 对扩散进行建模,可以得到有效的生成策略以及强有力的理论结果。第三种(基于 SDEs)可以被看作是对 DDPMs 和 NCSNs 的概括。

 

研究者确定了几个模型设计方案的决定要素,并将它们综合为三个通用的扩散建模框架,对应于上面介绍的三个子类别。为了把通用的扩散建模框架放在背景中,研究者还进一步讨论了扩散模型和其他深度生成模型之间的关系。更具体地说,本文描述了与变分自编码器(VAE)、生成对抗网络(GAN)、基于能量的模型(EBM)、自回归模型和归一化流的关系。然后,本文还介绍了应用于计算机视觉的扩散模型的多视角分类任务,并根据一些标准对现有模型进行了分类,如基础框架、目标任务或去噪条件。

 

最后,本文说明了目前扩散模型的局限性,并设想了一些有趣的未来研究方向。例如,最棘手的限制之一可能是推理过程中的时间效率低下问题,这是由于存在非常多的评价步骤。就算是生成一个样本也需要成千上万的评估步骤。所以,在不影响生成样本质量的前提下克服这一局限性,是未来研究的一个重要方向。

 

详细内容

内容中包含的图片若涉及版权问题,请及时与我们联系删除