AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation

向作者提问

NEW

简介

文本到图像（T2I）生成领域近年来取得了重大进展，这在很大程度上是由扩散模型的进步推动的。语言控制可以实现有效的内容创作，但在图像生成的细粒度控制方面存在困难。这个挑战已经被广泛探讨，通过额外的编码将附加的用户提供的空间条件，如深度图和边缘图，纳入预训练的T2I模型中。然而，多控制图像合成仍然面临着几个挑战。具体来说，目前的方法在处理多样化的输入控制信号的自由组合方面受限，忽略了多个空间条件之间的复杂关系，并且通常无法保持与提供的文本提示的语义对齐。这可能导致次优的用户体验。为了解决这些挑战，我们提出了AnyControl，一种多控制图像合成框架，支持多种控制信号的任意组合。AnyControl开发了一种新颖的多控制编码器，提取统一的多模态嵌入来指导生成过程。这种方法实现了对用户输入的全面理解，并在多种控制信号下产生高质量、忠实的结果，这得到了广泛的定量和定性评估。我们的项目页面可在https://any-control.github.io上访问。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决多控制信号下的图像生成问题，其中当前方法在处理自由组合的多个空间条件方面存在局限性，容易忽略多个空间条件之间的复杂关系，并且在维护与提供的文本提示的语义对齐方面经常失败。
关键思路

论文提出了一个名为AnyControl的多控制信号图像合成框架，支持任意组合不同的控制信号，并开发了一种新的多控制信号编码器来提取统一的多模态嵌入，以指导生成过程。
其它亮点

论文通过广泛的定量和定性评估证明了该方法的高质量和准确性，提供了开源代码和项目页面。值得深入研究的是，AnyControl框架的应用可能不仅局限于图像生成领域。
相关研究

最近的相关研究包括：1. Learning to Control PDEs with Differentiable Physics (ICML 2021); 2. GANSpace: Discovering Interpretable GAN Controls (CVPR 2020); 3. Learning to Control Self-Assembly with Coarse-Grained Capsules (ICLR 2020)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问