SinDiffusion实现新SOTA，从单幅自然图像学习扩散模型，优于GAN

从单幅自然图像生成图像的技术被广为应用，也因此受到越来越多的关注。这一研究旨在从单幅自然图像中学习一个无条件生成模型，通过捕获 patch 内部统计信息，生成具有相似视觉内容的不同样本。一旦训练完成，模型不仅可以生成高质量且不限分辨率的图像，而且还可以轻松适应多种应用，如图像编辑、图像和谐化（image harmonization）和图像间的转换。

SinGAN 可以满足上述要求，该方法可以构建自然图像的多个尺度，并训练一系列 GANs 来学习单幅图像中 patch 的内部统计信息。SinGAN 的核心思想是在渐进增长的尺度上训练多个模型。然而，通过这些方法生成的图像可能不尽人意，因为它们存在小范围的细节性误差，从而导致生成的图像中存在明显的伪影现象。

本文中，来自中国科学技术大学、微软亚洲研究院等机构的研究者提出了一个新的框架——单幅图像扩散模型（SinDiffusion，Single-image Diffusion），以用于从单幅自然图像中学习，其是在去噪扩散概率模型 (DDPM，Denoising Diffusion Probabilistic Model) 的基础上完成的。虽然扩散模型是一个多步（multiple-step）生成过程，但它不存在累积误差问题。原因是扩散模型具有系统的数学公式，中间步骤的误差可视为干扰，并且可以在扩散过程中得到改善。

SinDiffusion 的另一个核心设计是限制扩散模型的感受野。该研究回顾了先前扩散模型[7] 中常用的网络结构，发现它具有较强的性能和较深的结构。不过该网络结构具有的感受野大到能够覆盖整个图像，这导致模型倾向于靠记忆训练图像，从而生成与训练图像完全相同的图像。为了鼓励模型学习 patch 统计信息而不是记忆整个图像，研究对网络结构进行了精细设计，并引入了一个 patch-wise 去噪网络。同之前的扩散结构相比，SinDiffusion 减少了原去噪网络结构中的下采样次数和 ResBlock 数量。如此一来，SinDiffusion 可以从单幅自然图像中学习，并且生成高质量且多样化的图像(见图 2)。

论文地址：https://arxiv.org/pdf/2211.12445.pdf
项目地址：https://github.com/WeilunWang/SinDiffusion

SinDiffusion 的优点在于，它能灵活运用于各种场景(见图 1)。它可以用于各种应用，而无需对模型进行任何重新训练。在 SinGAN 中，下游应用主要通过将条件输入预先训练的不同尺度的 GANs 来实现。因此，SinGAN 的应用仅限于那些给定的空间对齐（spatiallyaligned）条件。与之不同的是，SinDiffusion 通过设计采样程序可用于更广泛的应用。SinDiffusion 通过无条件训练学习预测数据分布的梯度。假设有一个描述生成图像与条件之间相关性的评分函数(即 L−p 距离或一个预训练网络，如 CLIP)，该研究利用相关性评分的梯度来指导 SinDiffusion 的采样过程。通过这种方式，SinDiffusion 能够生成既符合数据分布又和给定条件相吻合的图像。

研究对各种自然图像进行了实验，以此来证明提出的框架的优势，实验对象包括风景和著名的艺术。定量和定性结果都证实了 SinDiffusion 可以产生高保真和多样化的结果，而下游应用进一步证明了 SinDiffusion 的实用性和灵活性。

本文转载于机器之心，阅读原文请点击这里

内容中包含的图片若涉及版权问题，请及时与我们联系删除

SinDiffusion实现新SOTA，从单幅自然图像学习扩散模型，优于GAN

评论列表

评论