Guiding a Diffusion Model with a Bad Version of Itself

简介

图像生成扩散模型的主要关注点是图像质量、结果的变化量以及结果与给定条件（例如类别标签或文本提示）的对齐程度。流行的无分类器引导方法使用无条件模型来引导有条件模型，从而在减少变化量的代价下同时实现更好的提示对齐和更高质量的图像。这些效果似乎本质上是纠缠在一起的，因此很难控制。我们惊奇地发现，通过使用模型本身的较小、较少训练的版本来引导生成，而不是无条件模型，可以获得对图像质量的脱钩控制，而不会影响变化量。这导致了在使用公开可用的网络时，ImageNet生成的显着改进，64x64和512x512的记录FID分别为1.01和1.25。此外，该方法也适用于无条件扩散模型，极大地提高了它们的质量。
图表
解决问题

论文旨在解决图像生成扩散模型中图像质量、结果变化量和与给定条件的对齐度之间的平衡问题。同时，该论文也试图提高无条件模型的图像生成质量。
关键思路

通过使用较小的、未经过训练的模型来指导生成模型，可以在不降低变化量的情况下获得对图像质量的分离控制。
其它亮点

该方法在ImageNet生成方面取得了显著的改进，使用公开可用的网络在64x64和512x512上设置了记录FID。此外，该方法也适用于无条件扩散模型，大大提高了其质量。
相关研究

近期的相关研究包括使用不同技术来改进图像生成质量和多样性，如GAN、变分自编码器和自回归模型。

Guiding a Diffusion Model with a Bad Version of Itself

评论