ControlNeXt: Powerful and Efficient Control for Image and Video Generation

简介

扩散模型在图像和视频生成方面表现出了显著和强大的能力。为了实现对生成结果更大的控制，研究人员引入了额外的架构，如ControlNet、Adapters和ReferenceNet，以集成条件控制。然而，目前的可控生成方法通常需要大量的额外计算资源，特别是对于视频生成，存在训练困难或控制效果不佳的挑战。在本文中，我们提出了ControlNeXt：一种强大而高效的可控图像和视频生成方法。我们首先设计了一种更简单和更高效的架构，用最小的额外成本替换了繁重的额外分支，并且与基础模型相比，这样的简洁结构还允许我们的方法与其他LoRA权重无缝集成，实现样式修改而无需进行额外的训练。在训练方面，我们将可学习参数减少了高达90％，与其他替代方案相比。此外，我们提出了另一种方法，称为交叉归一化（CN），作为“零卷积”的替代方法，以实现快速和稳定的训练收敛。我们在不同的基础模型上进行了各种实验，展示了我们方法的稳健性。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

本文旨在提出一种高效的可控图像和视频生成方法，以解决当前可控生成方法需要大量计算资源、训练困难或控制效果不佳的问题。
关键思路

本文提出了ControlNeXt方法，通过设计更简单、更高效的架构，用较小的代价替换掉基础模型的重量级附加分支，从而实现高效的可控生成。同时，通过引入Cross Normalization（CN）方法替代Zero-Convolution，加速和稳定训练收敛。
其它亮点

本文的方法在图像和视频的不同基础模型上进行了实验，结果表明了其鲁棒性。同时，该方法还可以与其他LoRA权重无缝集成，实现风格转换而无需额外训练。此外，本文的方法比其他方法减少了高达90%的可学习参数，训练更加高效。
相关研究

与本文相关的研究包括：Diffusion models、ControlNet、Adapters和ReferenceNet等可控生成方法的研究。

ControlNeXt: Powerful and Efficient Control for Image and Video Generation

提问交流

提问交流