- 简介最近,像稳定扩散这样的深度文本到图像合成(TIS)模型在创意文本到图像生成方面已经获得了显著的流行度。然而,对于特定领域的情况,无需调整的文本引导图像编辑(TIE)对于应用程序开发人员更为重要,它通过在生成过程中操作注意层中的特征组件来修改图像中的对象或对象属性。然而,我们很少知道这些注意力层学习了什么语义意义,以及注意力图的哪些部分有助于图像编辑的成功。在本文中,我们进行了深入的探究分析,并证明稳定扩散中的交叉注意力图通常包含对象归因信息,这可能导致编辑失败。相反,自我注意力图在将源图像转换为目标图像的过程中保留几何和形状细节方面起着至关重要的作用。我们的分析提供了有价值的见解,以了解扩散模型中的交叉和自我注意力图。此外,基于我们的发现,我们简化了流行的图像编辑方法,并提出了一种更简单但更稳定和高效的无需调整程序,它仅在去噪过程中修改指定注意力层的自我注意力图。实验结果表明,我们简化的方法在多个数据集上始终优于流行方法的性能。
- 图表
- 解决问题本文旨在解决针对特定领域的图像编辑问题,提出了一种基于自我关注机制的图像编辑方法,同时探究了Stable Diffusion模型中交叉关注和自我关注的作用。
- 关键思路本文提出了一种基于自我关注机制的图像编辑方法,该方法只修改指定注意力层的自我关注机制,从而更加简单、稳定和高效。与Stable Diffusion模型中的交叉关注相比,自我关注在保留源图像的几何和形状细节方面起到了关键作用。
- 其它亮点本文通过深入探究Stable Diffusion模型中的交叉关注和自我关注机制,提出了一种更加简单、稳定和高效的图像编辑方法,并在多个数据集上进行了实验验证。此外,本文的发现为理解扩散模型中的交叉和自我关注提供了有价值的见解。
- 最近在这个领域中,还有一些相关的研究,例如《Stable Diverse Text-to-Image Generation with Controllable Attributes》和《Generative Models for Effective ML on Private, Decentralized Datasets》等。
沙发等你来抢
去评论
评论
沙发等你来抢