- 简介扩散模型在文本引导合成任务方面取得了重大进展。然而,编辑用户提供的图像仍然具有挑战性,因为扩散模型的高维噪声输入空间不适合图像反演或空间编辑。在这项工作中,我们提出了一种图像表示方法,促进使用扩散模型对输入图像进行空间编辑。具体而言,我们学习将输入编码为“图像元素”,可以忠实地重建输入图像。这些元素可以由用户直观地编辑,并由扩散模型解码为逼真的图像。我们展示了我们的表示在各种图像编辑任务中的有效性,例如对象调整、重新排列、拖动、去遮挡、移除、变化和图像合成。项目页面:https://jitengmu.github.io/Editable_Image_Elements/
- 图表
- 解决问题本论文旨在解决图像编辑中高维噪声输入空间不适合图像反演或空间编辑的问题,提出了一种促进输入图像的空间编辑的图像表示方法。
- 关键思路论文的关键思路是学习将输入图像编码为“图像元素”,这些元素可以被用户直观地编辑,并通过扩散模型解码为逼真的图像。
- 其它亮点论文使用了自己构建的数据集,并在多个图像编辑任务中展示了该方法的有效性,包括对象调整、重排、拖动、去遮挡、去除、变化和图像合成。论文提供了开源代码和项目页面。
- 最近的相关研究包括使用深度学习技术进行图像编辑的方法,如GAN和VAE。其中一些论文包括“Generative Adversarial Networks”和“Auto-Encoding Variational Bayes”。


提问交流