Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion

2024年05月24日
  • 简介
    最近,应用扩散模型大大推动了文本到图像(T2I)编辑的发展。尽管生成的图像具有视觉上的吸引力,但与预期的文本提示存在不一致性。本文旨在通过解决其局限性,系统地改进基于扩散模型的文本引导图像编辑技术。值得注意的是,基于扩散的编辑的常见思路是首先通过反演技术(例如DDIM反演)重建源图像,然后进行融合处理,将源中间(隐藏)状态(通过反演获得)与目标图像的状态仔细集成。不幸的是,由于某些区域纹理保留和新字符的干扰,这样的标准流程在许多情况下失败了。为了缓解这种情况,我们将人工注释作为外部知识纳入,将编辑限制在“掩码通知”区域内。然后,我们在模型的自我注意模块中仔细融合编辑后的图像、源图像和构建的中间图像。广泛的实证结果表明,所提出的“MaSaFusion”显著改善了现有的T2I编辑技术。
  • 图表
  • 解决问题
    本文旨在通过解决基于扩散模型的文本引导图像编辑技术的局限性,系统地改进T2I编辑技术,提高编辑结果的一致性。
  • 关键思路
    提出了一种名为“MaSaFusion”的新方法,该方法通过结合人类注释和自注意力模块,将编辑结果限制在“掩码信息”区域内,从而解决了传统编辑流程中出现的纹理保留和新字符创建干扰的问题。
  • 其它亮点
    实验结果表明,“MaSaFusion”显著提高了现有T2I编辑技术的表现。本文使用了多个数据集进行实验,并将代码公开。
  • 相关研究
    最近的相关研究包括:1.《Generative Pretraining Transformer for Diverse Text-to-Image Synthesis》;2.《Text-to-Image Generation Grounded by Fine-Grained User Attention》;3.《Controllable Text-to-Image Generation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论