DiffUHaul: A Training-Free Method for Object Dragging in Images

向作者提问

NEW

简介

文本到图像扩散模型已被证明在解决许多图像编辑任务方面非常有效。然而，看似简单的场景内物体无缝重定位任务仍然是一个令人惊讶的挑战。现有的解决此问题的方法通常由于缺乏空间推理能力而难以在现实场景中可靠地发挥作用。在本研究中，我们提出了一种名为DiffUHaul的无需训练的方法，利用了本地化文本到图像模型的空间理解能力，用于物体拖拽任务。盲目操作本地化模型的布局输入往往会导致低编辑性能，因为模型中物体表示的内在纠缠。为此，我们首先在每个去噪步骤中应用注意力掩蔽，使生成的图像在不同物体之间更加解耦，并采用自注意力共享机制来保留高级物体外观。此外，我们提出了一种新的扩散锚定技术：在早期去噪步骤中，我们在源图像和目标图像之间插值注意力特征，以平滑地融合新的布局和原始外观；在后面的去噪步骤中，我们将来自源图像的本地化特征传递到插值图像中，以保留细粒度的物体细节。为了使DiffUHaul适应实际图像编辑，我们应用了一种DDPM自注意桶技术，可以更好地使用本地化模型重建真实图像。最后，我们介绍了一个自动化评估流程，并展示了我们方法的有效性。我们的结果通过用户偏好研究得到了加强。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决图像编辑中物体平移的难题，并验证了一种名为DiffUHaul的方法。该问题在实际场景中往往由于缺乏空间推理而难以可靠地解决。
关键思路

DiffUHaul是一种无需训练的方法，利用局部文本到图像模型的空间理解能力进行物体拖动任务。该方法采用注意力掩码和自注意力共享机制，以保留高级物体外观。此外，还提出了一种新的扩散锚定技术，以平滑地融合新布局和原始外观，并保留细粒度的物体细节。
其它亮点

论文设计了一个自动化的评估流水线，并通过用户偏好研究展示了该方法的有效性。此外，为了适应真实图像编辑，论文使用了一种DDPM自注意力分桶，以更好地重构具有局部模型的真实图像。
相关研究

最近的相关研究包括：Text2Scene: Generating Compositional Scenes from Textual Descriptions，Generative Models for Effective ML on Private, Decentralized Datasets，Learning to Simulate Dynamic Environments with GameGAN等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问