ControlNeXt: Powerful and Efficient Control for Image and Video Generation

2024年08月12日
  • 简介
    扩散模型在图像和视频生成方面表现出了显著和强大的能力。为了实现对生成结果更大的控制,研究人员引入了额外的架构,如ControlNet、Adapters和ReferenceNet,以集成条件控制。然而,目前的可控生成方法通常需要大量的额外计算资源,特别是对于视频生成,存在训练困难或控制效果不佳的挑战。在本文中,我们提出了ControlNeXt:一种强大而高效的可控图像和视频生成方法。我们首先设计了一种更简单和更高效的架构,用最小的额外成本替换了繁重的额外分支,并且与基础模型相比,这样的简洁结构还允许我们的方法与其他LoRA权重无缝集成,实现样式修改而无需进行额外的训练。在训练方面,我们将可学习参数减少了高达90%,与其他替代方案相比。此外,我们提出了另一种方法,称为交叉归一化(CN),作为“零卷积”的替代方法,以实现快速和稳定的训练收敛。我们在不同的基础模型上进行了各种实验,展示了我们方法的稳健性。
  • 作者讲解·2
  • 图表
  • 解决问题
    本文旨在提出一种高效的可控图像和视频生成方法,以解决当前可控生成方法需要大量计算资源、训练困难或控制效果不佳的问题。
  • 关键思路
    本文提出了ControlNeXt方法,通过设计更简单、更高效的架构,用较小的代价替换掉基础模型的重量级附加分支,从而实现高效的可控生成。同时,通过引入Cross Normalization(CN)方法替代Zero-Convolution,加速和稳定训练收敛。
  • 其它亮点
    本文的方法在图像和视频的不同基础模型上进行了实验,结果表明了其鲁棒性。同时,该方法还可以与其他LoRA权重无缝集成,实现风格转换而无需额外训练。此外,本文的方法比其他方法减少了高达90%的可学习参数,训练更加高效。
  • 相关研究
    与本文相关的研究包括:Diffusion models、ControlNet、Adapters和ReferenceNet等可控生成方法的研究。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问