最近的大规模文本到图像 (Text-to-Image,T2I) 扩散模型取得了显著的成功,能够从描述目标概念的任何文本提示生成复杂而逼真的图像。尽管具有显著的优势,但 T2I 扩散模型仅从文本描述来看空间可控性较差。本论文重点关注改进预训练的 T2I 扩散模型,并提供额外的支持以获取空间参考。
本论文的第一部分提出了 FreeControl,这是一种无需训练且基于指导的可控 T2I 生成方法,可同时支持多种条件、架构和检查点。FreeControl 强制结构指导以促进与指导图像的全局对齐,并强制外观指导以从无控制生成的图像中收集视觉细节。大量的定性和定量实验证明了 FreeControl 在各种预训练的 T2I 模型中的卓越性能。具体来说,FreeControl 可以方便地对许多不同的架构和检查点进行无训练控制,允许大多数现有无训练方法无法应对的具有挑战性的输入条件,并且与基于训练的方法相比,其综合质量具有竞争力。
本文的第二部分介绍了 Ctrl-X,这是一种无训练和无指导的方法,支持从大量图像模态中进行结构和外观定制。Ctrl-X 设计了前馈结构控制,以实现与结构图像的结构对齐和语义感知外观传输,以促进从用户输入图像进行外观传输。大量的定性和定量实验表明 Ctrl-X 在各种条件输入和模型检查点上的卓越性能。
论文题目:Towards Training-Free Controllable Text-to-Image Generation
作者:Sicheng Mo
类型:2024年硕士论文
学校:University of California, Los Angeles(美国加州大学洛杉矶分校)
下载链接:
链接: https://pan.baidu.com/s/1KVZOcm0qzpqS_dvdAMIhnw?pwd=9ebr
硕博论文汇总:
链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5
稳定扩散的无训练条件控制。(a)FreeControl 能够在给定各种输入控制条件的情况下对预训练的文本到图像扩散模型进行零样本控制。(b)与 ControlNet 相比,FreeControl 在空间和图像文本对齐之间实现了良好的平衡,尤其是在面对指导图像和文本描述之间的冲突时。此外,FreeControl 支持几种条件类型(例如,底行中的点云和网格的 2D 投影),在这些情况下很难构建训练对。
PCA 给出的特征子空间的可视化。通过对五张不同风格和模态的图像(顶部:人;底部:卧室)进行 DDIM 反转,获得 U-Net 解码器中第一个自注意力的关键,然后进行 PCA。前三个主成分(RGB 中的伪彩色)提供了语义成分的清晰分离。
方法概述。(a) 在分析阶段,FreeControl 使用预训练的扩散模型为目标概念(例如“人”)生成种子图像,并对其扩散特征执行 PCA 以获得线性子空间作为语义基础。(b) 在合成阶段,FreeControl 在此子空间中使用结构指导来强制结构与输入条件对齐。同时,它应用外观指导来促进从使用相同种子生成的兄弟图像进行外观转移,而无需结构控制。
可控 T2I 扩散的定性比较。FreeControl 支持一套控制信号和三个主要版本的稳定扩散。生成的图像紧密遵循文本提示,同时与输入图像表现出很强的空间对齐性。
更多样化控制条件的定性结果。FreeControl 支持基于训练的方法无法实现的具有挑战性的控制条件。这些包括常见图形基元的 2D 投影、特定领域的形状模型(点云、身体网格和人形)、图形软件视口(Blender 和 AutoCAD)以及模拟驾驶环境(Metadrive)。
可控 T2I 扩散的定性比较。与基于训练的方法相比,FreeControl 实现了有竞争力的空间控制和卓越的图像文本对齐。它还摆脱了无训练基线所表现出的外观泄漏问题,生成了内容丰富、外观忠实于文本提示的高质量图像。
可控的 T2I 自定义概念生成。FreeControl 与主要的自定义技术兼容,并且可以轻松支持可控的自定义概念生成,而无需空间对齐的条件图像。相比之下,ControlNet 无法在有冲突的条件下保留自定义概念,而 T2IAdapter 拒绝尊重条件图像和文本提示。
ControlNet 与 FreeControl 相结合的定性结果。顶部:“中国茶壶,红色”;底部:“森林里的一只兔子”。
稳定扩散 XL (SDXL) 的无指导结构和外观控制。Ctrl-X 可在给定任何结构条件和外观图像的情况下,对预训练的文本到图像扩散模型进行无训练和无指导的零样本控制。
Ctrl-X 概述 (a) 在每个采样步骤 t,我们通过前向扩散过程获得 xs t 和 xa t,将它们输入到 T2I 扩散模型中以获得它们的卷积和自注意特征。
T2I 扩散结构和外观控制和条件生成的定性结果 Ctrl-X 支持多种结构图像,用于 (a) 结构和外观可控生成和 (b) 提示驱动的条件生成。
微信群 公众号


内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢