生成扩散模型漫谈：条件控制生成结果

作者 | 苏剑林

单位 | 追一科技

作为生成模型，扩散模型跟 VAE、GAN、flow 等模型的发展史很相似，都是先出来了无条件生成，然后有条件生成就紧接而来。无条件生成往往是为了探索效果上限，而有条件生成则更多是应用层面的内容，因为它可以实现根据我们的意愿来控制输出结果。从 DDPM 至今，已经出来了很多条件扩散模型的工作，甚至可以说真正带火了扩散模型的就是条件扩散模型，比如脍炙人口的文生图模型 DALL·E 2 [1]、Imagen [2]。

在这篇文章中，我们对条件扩散模型的理论基础做个简单的学习和总结。

技术分析

从方法上来看，条件控制生成的方式分两种：事后修改（Classifier-Guidance）和事前训练（Classifier-Free）。对于大多数人来说，一个 SOTA 级别的扩散模型训练成本太大了，而分类器（Classifier）的训练还能接受，所以就想着直接复用别人训练好的无条件扩散模型，用一个分类器来调整生成过程以实现控制生成，这就是事后修改的 Classifier-Guidance 方案；而对于“财大气粗”的 Google、OpenAI 等公司来说，它们不缺数据和算力，所以更倾向于往扩散模型的训练过程中就加入条件信号，达到更好的生成效果，这就是事前训练的 Classifier-Free 方案。

Classifier-Guidance 方案最早出自《Diffusion Models Beat GANs on Image Synthesis》[3]，最初就是用来实现按类生成的；后来《More Control for Free! Image Synthesis with Semantic Diffusion Guidance》[4] 推广了“Classifier”的概念，使得它也可以按图、按文来生成。Classifier-Guidance 方案的训练成本比较低（熟悉 NLP 的读者可能还会想起与之很相似的 PPLM 模型），但是推断成本会高些，而且控制细节上通常没那么到位。

至于 Classifier-Free 方案，最早出自《Classifier-Free Diffusion Guidance》[5]，后来的 DALL·E 2 [1]、Imagen [6] 等吸引人眼球的模型基本上都是以它为基础做的，值得一提的是，该论文上个月才放到 Arxiv 上，但事实上去年已经中了 NeurIPS 2021。应该说，Classifier-Free 方案本身没什么理论上的技巧，它是条件扩散模型最朴素的方案，出现得晚只是因为重新训练扩散模型的成本较大吧，在数据和算力都比较充裕的前提下，Classifier-Free 方案变现出了令人惊叹的细节控制能力。

阅读详细内容

内容中包含的图片若涉及版权问题，请及时与我们联系删除

生成扩散模型漫谈：条件控制生成结果

评论列表

评论

​生成扩散模型漫谈：条件控制生成结果

评论列表

评论

生成扩散模型漫谈：条件控制生成结果