GLoD: Composing Global Contexts and Local Details in Image Generation

简介

扩散模型已经展示了它们从文本提示中合成高质量和多样化图像的能力。然而，同时控制全局上下文（例如，对象布局和交互）和局部细节（例如，颜色和情感）仍然是一个重大挑战。这些模型经常无法理解涉及多个对象的复杂描述，并将指定的视觉属性反映到错误的目标或忽略它们。本文提出了全局-局部扩散（GLoD），这是一个新颖的框架，它允许在文本到图像生成中同时控制全局上下文和局部细节，而无需训练或微调。它将多个全局和局部提示分配给相应的层，并组合它们的噪声，使用预训练的扩散模型指导去噪过程。我们的框架实现了复杂的全局-局部组合，将全局提示中的对象与局部提示相结合，同时保留其他未指定的身份。我们的定量和定性评估表明，GLoD有效地生成符合用户提供的对象交互和对象细节的复杂图像。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

GLoD试图解决文本到图像生成中全局上下文和局部细节同时控制的问题，尤其是在涉及多个对象和视觉属性的复杂描述中。
关键思路

GLoD通过将多个全局和局部提示分配给相应的层，并组合它们的噪声来指导预训练扩散模型的去噪过程，从而实现了对全局上下文和局部细节的同时控制。
其它亮点

GLoD可以进行复杂的全局-局部组合，将全局提示中的对象与局部提示相结合，同时保留其他未指定的身份。实验结果表明，GLoD可以生成符合用户提供的对象交互和对象细节的复杂图像。
相关研究

在文本到图像生成领域，还有一些相关的研究，如CLIP和DALL-E。

GLoD: Composing Global Contexts and Local Details in Image Generation

提问交流

提问交流