Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance

简介

之前的研究在图像修复中，通过文本或主题图像的引导已经取得了重要进展。然而，使用它们的联合引导进行编辑的研究仍处于早期阶段。为了解决这个挑战，我们提出了一种新的方法——LAR-Gen，它可以让我们在修复被遮挡的场景图像时，同时结合文本提示和指定的主题，实现无缝修复。我们的方法采用由粗到细的方式，以确保主题身份的保留和局部语义的一致性。该过程包括三个步骤：（i）定位：将噪声与遮挡的场景图像连接起来，以实现精确的区域编辑；（ii）分配：采用解耦的交叉注意机制，以适应多模态引导；（iii）细化：使用新颖的RefineNet来补充主题细节。此外，为了解决训练数据不足的问题，我们引入了一种新的数据构建流程。该流程从大量的图像数据集中提取由本地文本提示和相应的视觉实例组成的大量数据对，利用公开可用的大型模型。广泛的实验和不同的应用场景证明了LAR-Gen在身份保留和文本语义一致性方面的优越性。项目页面可在\url{https://ali-vilab.github.io/largen-page/}找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决图像修复中文本和指定主题的联合引导问题，以及数据稀缺的挑战。
关键思路

论文采用分层方法，结合噪声和掩蔽场景图像，使用交叉注意力机制和RefineNet来保持主题身份和局部语义一致性。
其它亮点

论文提出了一种新的数据构建管道，从大型图像数据集中提取本地文本提示和相应的视觉实例，利用公开可用的大型模型。实验结果表明，该方法在保持身份和文本语义一致性方面具有优越性。
相关研究

与本文相关的研究包括：1. Learning to inpaint for image compression with adversarial loss; 2. Semantic image inpainting with deep generative models; 3. Free-form image inpainting with gated convolution; 4. Generative image inpainting with contextual attention.

Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance

提问交流

提问交流