自然图像合成是一类机器学习(ML)任务,其具有广泛应用及许多设计挑战。图像合成任务的一个例子是图像超分辨率,其训练模型将低分辨率图像转换为高分辨率图像(例如:RAISR)。
 
 
超分辨率有许多应用,从恢复旧的全家福照片到改进医学图像成像系统。另一个图像合成任务是类条件图像生成,其训练模型将输入类标签生成样本图像。生成的样本图像可用于提高下游模型的图像分类、分割等性能。
 
通常,这些图像合成任务由深度生成模型执行,例如 GAN、VAE 和自回归模型。然而,当在困难的高分辨率数据集上经过训练合成高质量样本时,这些生成模型中的每一个都有其缺点。例如,GAN 经常受训练不稳定和模式崩溃的影响,而自回归模型通常会受到合成速度缓慢的影响。
 
最初于 2015 年提出的扩散模型由于其训练稳定性及在图像和音频生成方面可观的样本结果质量,最近引起了人们的广泛关注。
 
与其他类型的深度生成模型相比,扩散模型提供了潜在的有利权衡。它通过逐渐添加高斯噪声来损坏训练数据,慢慢消除数据中的细节直到它变成纯噪声;然后训练神经网络来扭转这种损坏过程,运行这个反向损坏过程通过逐渐去噪直到产生干净的样本来合成来自纯噪声的数据。这个合成过程可以解释为一种优化算法,它遵循数据密度的梯度来产生可能的样本。
 
如今,谷歌团队提出了两种相互关联的方法,它们突破了扩散模型的图像合成质量的界限——一种通过重复细化(SR3)的超分辨率和一种称为级联扩散模型(CDM)的类条件合成模型。
 
通过扩大扩散模型和精心设计的数据增强技术,可以胜过现有的方法。
 
具体来说,SR3 在人类评估中获得了超过 GAN 的强大图像超分辨率结果。CDM 生成的高保真 ImageNet 样本在 FID 分数和分类准确度分数上均大大超过 BigGAN-deep 和 VQ-VAE2。
 
相关进展论文:
 

Refrence:

https://ai.googleblog.com/2021/07/high-fidelity-image-generation-using.html?m=1