- 简介我们提供了一种新颖的图像合成方法,将多个输入图像集成到一个连贯的图像中。我们展示了利用大规模预训练扩散模型中强大的生成先验来完成通用图像合成的潜力,而不是集中于外观编辑(图像协调)或语义编辑(语义图像合成)等特定用例。我们观察到预训练扩散模型在去噪过程中自动识别简单的复制粘贴边界区域作为低密度区域。基于这一观察结果,我们建议通过扩散先验引导合成图像朝向高密度区域进行优化。此外,我们引入了一种新的掩模引导损失,进一步实现了灵活的语义图像合成。广泛的实验验证了我们的方法在实现通用零样本图像合成方面的优越性。此外,我们的方法在物体去除和多概念定制等各种任务中显示出了很大的潜力。
-
- 图表
- 解决问题本论文旨在提出一种新的图像合成方法,将多个输入图像集成到一个连贯的图像中。这种方法适用于外观编辑和语义编辑等多种场景,并且具有通用性。
- 关键思路本论文的关键思路是利用大规模预训练扩散模型中内在的生成先验来实现通用图像合成。通过观察到预训练扩散模型在去噪时自动识别简单的复制粘贴边界区域作为低密度区域,本文提出了一种优化合成图像的方法,即通过扩散先验引导向高密度区域优化合成图像。此外,本文还引入了一种新的掩码引导损失来进一步实现灵活的语义图像合成。
- 其它亮点本文的实验结果表明,该方法在实现通用零样本图像合成方面具有优越性。此外,该方法在物体去除和多概念定制等任务中也表现出了很好的潜力。该论文使用了多个数据集进行实验,并且开源了代码。
- 在最近的相关研究中,也有一些关于图像合成的研究,例如:《Generative Image Inpainting with Contextual Attention》、《Deep Image Harmonization with Attention》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流