- 简介文本到图像(T2I)生成领域近年来取得了重大进展,这在很大程度上是由扩散模型的进步推动的。语言控制可以实现有效的内容创作,但在图像生成的细粒度控制方面存在困难。这个挑战已经被广泛探讨,通过额外的编码将附加的用户提供的空间条件,如深度图和边缘图,纳入预训练的T2I模型中。然而,多控制图像合成仍然面临着几个挑战。具体来说,目前的方法在处理多样化的输入控制信号的自由组合方面受限,忽略了多个空间条件之间的复杂关系,并且通常无法保持与提供的文本提示的语义对齐。这可能导致次优的用户体验。为了解决这些挑战,我们提出了AnyControl,一种多控制图像合成框架,支持多种控制信号的任意组合。AnyControl开发了一种新颖的多控制编码器,提取统一的多模态嵌入来指导生成过程。这种方法实现了对用户输入的全面理解,并在多种控制信号下产生高质量、忠实的结果,这得到了广泛的定量和定性评估。我们的项目页面可在https://any-control.github.io上访问。
-
- 图表
- 解决问题论文旨在解决多控制信号下的图像生成问题,其中当前方法在处理自由组合的多个空间条件方面存在局限性,容易忽略多个空间条件之间的复杂关系,并且在维护与提供的文本提示的语义对齐方面经常失败。
- 关键思路论文提出了一个名为AnyControl的多控制信号图像合成框架,支持任意组合不同的控制信号,并开发了一种新的多控制信号编码器来提取统一的多模态嵌入,以指导生成过程。
- 其它亮点论文通过广泛的定量和定性评估证明了该方法的高质量和准确性,提供了开源代码和项目页面。值得深入研究的是,AnyControl框架的应用可能不仅局限于图像生成领域。
- 最近的相关研究包括:1. Learning to Control PDEs with Differentiable Physics (ICML 2021); 2. GANSpace: Discovering Interpretable GAN Controls (CVPR 2020); 3. Learning to Control Self-Assembly with Coarse-Grained Capsules (ICLR 2020)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流