Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control

简介

当前的扩散模型可以根据文本提示生成逼真的图像，但是往往难以将文本中提到的属性正确地绑定到图像中的相应对象。我们的创新性图像-图形对齐模型EPViT（Edge Prediction Vision Transformer）为评估图像-文本对齐提供了证据。为了缓解上述问题，我们提出了聚焦交叉注意力（FCA），通过输入句子中的句法约束来控制视觉注意力图。此外，提示的语法结构有助于解开在T2I生成中常用的多模态CLIP嵌入。由此产生的DisCLIP嵌入和FCA可以轻松地集成到最先进的扩散模型中，无需对这些模型进行额外的训练。我们在几个数据集上展示了T2I生成及其属性-对象绑定方面的显着改进。【接下来的一句为注脚，提到代码和数据将在接受后提供】。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文致力于解决图像文本对齐中的属性-对象绑定问题，提出了一种基于语法约束的注意力机制和DisCLIP嵌入的解决方案。
关键思路

论文提出了一种名为EPViT的图像-图形对齐模型，使用基于语法约束的注意力机制（FCA）来控制视觉注意力图，并使用输入句子的句法结构来解开多模态CLIP嵌入。该方法可以轻松集成到最先进的扩散模型中，无需对这些模型进行额外的训练。
其它亮点

论文的实验表明，DisCLIP嵌入和FCA可以显著提高T2I生成的属性-对象绑定，并在多个数据集上获得了良好的结果。论文的代码和数据将在接受后公开发布。
相关研究

近期在该领域的相关研究包括：《CLIP: Connecting Text and Images》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。

Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control

提问交流

提问交流