Text Guided Image Editing with Automatic Concept Locating and Forgetting

2024年05月30日
  • 简介
    随着受文本指导的图像扩散模型的进步,图像编辑方面已经取得了显著的进展。然而,一个持久的挑战是在不依赖额外用户提供的指导的情况下,根据文本指令将物体无缝地融入图像中。文本和图像本质上是不同的模态,这使得完全捕捉通过语言传达的语义意图并准确地将其转化为所需的视觉修改变得困难。因此,受文本指导的图像编辑模型通常会产生带有残留对象属性的生成物,这些属性与人类期望不完全一致。为了解决这个挑战,模型应该有效地理解图像内容,避免提供的文本编辑提示和实际对图像进行的修改之间的脱节。在我们的论文中,我们提出了一种名为“定位和遗忘”(LaF)的新方法,通过比较目标提示和输入图像中的场景描述的句法树,有效地定位图像中潜在的目标概念以进行修改,意图在生成的图像中忘记它们的存在线索。与基线相比,我们的方法在定量和定性的文本指导图像编辑任务中表现出了优越性。
  • 图表
  • 解决问题
    本文旨在解决文本指导下的图像编辑中的一个挑战:如何无需额外用户提供的指导,无缝地将对象根据文本指令融入图像中。
  • 关键思路
    本文提出了一种新方法,称为Locate and Forget(LaF),通过比较目标提示的句法树和输入图像中的场景描述,有效地定位潜在的目标概念以进行修改,并试图在生成的图像中忘记它们的存在线索,以更好地理解图像内容。
  • 其它亮点
    本文的实验结果表明,LaF方法在文本指导下的图像编辑任务中表现出优越性,无论是从定性还是定量的角度来看。本文提出的方法可以帮助解决图像和文本之间的语义不一致问题。
  • 相关研究
    最近的相关研究包括:1)基于文本的图像生成模型,如StackGAN和AttnGAN;2)基于文本的图像编辑模型,如DM-GAN和SEAN。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论