本文提出了一种神经网络结构 ControlNet,用于控制预训练的大型扩散模型以支持额外的输入条件。 ControlNet 以端到端的方式学习特定于任务的条件,即使训练数据集很小 (< 50k),学习也很稳健。 此外,训练 ControlNet 与微调扩散模型一样快,并且可以在个人设备上训练模型。 或者,如果可以使用强大的计算集群,该模型可以扩展到大量(数百万到数十亿)数据。 我们报告说,像 Stable Diffusion 这样的大型扩散模型可以通过 ControlNets 进行增强,以启用边缘图、分割图、关键点等条件输入。这可能会丰富控制大型扩散模型的方法,并进一步促进相关应用。

论文标题:Adding Conditional Control to Text-to-Image Diffusion Models

论文链接:https://arxiv.org/pdf/2302.05543v1.pdf

代码链接:https://github.com/lllyasviel/ControlNet

ControlNet将大扩散模型的权重克隆成“可训练副本”和“锁定副本”。锁定副本保留了从数十亿图像中学习到的网络能力,而可训练副本在特定任务的数据集上进行训练以学习条件控制。 可训练和锁定的神经网络块与称为“零卷积”的独特类型的卷积层连接,其中卷积权重以学习的方式从零逐渐增长到优化参数。

由于保留了生产就绪的权重,因此训练在不同规模的数据集上都很稳健。

由于零卷积不会为深层特征添加新的噪声,与从头开始训练新层相比,训练与微调扩散模型一样快。

内容中包含的图片若涉及版权问题,请及时与我们联系删除