Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control

2024年04月21日
  • 简介
    当前的扩散模型可以根据文本提示生成逼真的图像,但是往往难以将文本中提到的属性正确地绑定到图像中的相应对象。我们的创新性图像-图形对齐模型EPViT(Edge Prediction Vision Transformer)为评估图像-文本对齐提供了证据。为了缓解上述问题,我们提出了聚焦交叉注意力(FCA),通过输入句子中的句法约束来控制视觉注意力图。此外,提示的语法结构有助于解开在T2I生成中常用的多模态CLIP嵌入。由此产生的DisCLIP嵌入和FCA可以轻松地集成到最先进的扩散模型中,无需对这些模型进行额外的训练。我们在几个数据集上展示了T2I生成及其属性-对象绑定方面的显着改进。【接下来的一句为注脚,提到代码和数据将在接受后提供】。
  • 作者讲解
  • 图表
  • 解决问题
    论文致力于解决图像文本对齐中的属性-对象绑定问题,提出了一种基于语法约束的注意力机制和DisCLIP嵌入的解决方案。
  • 关键思路
    论文提出了一种名为EPViT的图像-图形对齐模型,使用基于语法约束的注意力机制(FCA)来控制视觉注意力图,并使用输入句子的句法结构来解开多模态CLIP嵌入。该方法可以轻松集成到最先进的扩散模型中,无需对这些模型进行额外的训练。
  • 其它亮点
    论文的实验表明,DisCLIP嵌入和FCA可以显著提高T2I生成的属性-对象绑定,并在多个数据集上获得了良好的结果。论文的代码和数据将在接受后公开发布。
  • 相关研究
    近期在该领域的相关研究包括:《CLIP: Connecting Text and Images》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问