MAG-Edit: Localized Image Editing in Complex Scenarios via $\underline{M}$ask-Based $\underline{A}$ttention-Adjusted $\underline{G}$uidance

简介

最近基于扩散的图像编辑方法在简单构图的图像中展现出了令人印象深刻的编辑能力。然而，尽管实际需求不断增长，但复杂场景下的局部编辑还没有得到很好的研究。现有的基于掩模修复的方法无法保留编辑区域内的基础结构。同时，无掩模的注意力方法在更复杂的构图中常常出现编辑泄漏和错位。在这项工作中，我们开发了一个无需训练的推理阶段优化方法$\textbf{MAG-Edit}$，它可以在复杂场景中实现局部图像编辑。具体来说，$\textbf{MAG-Edit}$通过最大化两个基于掩模的交叉注意力约束来优化扩散模型中的噪声潜在特征，从而逐渐增强与所需提示的局部对齐。广泛的定量和定性实验证明了我们的方法在实现局部编辑时既能对齐文本，又能保留结构的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决复杂场景下局部图像编辑的问题，提出了一种基于优化的方法MAG-Edit。
关键思路

MAG-Edit是一种无需训练的推理阶段优化方法，通过最大化编辑令牌的两个基于掩码的交叉注意力约束，优化扩散模型中的噪声潜在特征，从而逐渐增强与所需提示的局部对齐。
其它亮点

论文在复杂场景下实现了局部图像编辑的文本对齐和结构保留，实验结果表明了该方法的有效性。论文使用了多个数据集进行实验，并提供了开源代码。
相关研究

最近的相关研究包括基于掩码的修复方法和基于注意力的图像编辑方法。

MAG-Edit: Localized Image Editing in Complex Scenarios via $\underline{M}$ask-Based $\underline{A}$ttention-Adjusted $\underline{G}$uidance

提问交流

提问交流