ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

简介

为了增强文本到图像扩散模型的可控性，现有的方法如ControlNet采用了基于图像的条件控制。本文揭示了现有方法在生成与图像条件控制相符的图像方面仍面临重大挑战。为此，我们提出了ControlNet++，一种新的方法，通过明确优化生成图像与条件控制之间的像素级循环一致性来提高可控性。具体而言，对于输入的条件控制，我们使用预训练的辨别奖励模型来提取生成图像的相应条件，然后优化输入条件控制与提取的条件之间的一致性损失。一种直接的实现方法是从随机噪声中生成图像，然后计算一致性损失，但这种方法需要存储多个采样时间步长的梯度，导致时间和内存成本相当大。为了解决这个问题，我们引入了一种有效的奖励策略，通过添加噪声有意干扰输入图像，然后使用单步去噪后的图像进行奖励微调。这避免了与图像采样相关的广泛成本，从而实现更高效的奖励微调。广泛的实验表明，ControlNet++在各种条件控制下显著提高了可控性。例如，对于分割掩模、线条边缘和深度条件，它们分别相对于ControlNet实现了7.9%的mIoU、13.4%的SSIM和7.6%的RMSE的改进。
图表
解决问题

提高文本到图像扩散模型的可控性，解决现有方法在生成与条件控制不对齐方面仍面临的挑战。
关键思路

通过显式优化生成图像与条件控制之间的像素级循环一致性，提高可控生成。
其它亮点

提出了ControlNet++，采用预训练的判别奖励模型提取生成图像的条件，并优化输入条件控制与提取条件之间的一致性损失；引入有效的奖励策略，避免了图像采样带来的时间和内存成本；在各种条件控制下，实验证明ControlNet++显著提高了可控性。
相关研究

相关研究包括ControlNet等文本到图像生成模型，以及基于图像的条件控制方法。

ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

评论