- 简介扩散模型在文本到图像合成方面表现出了非凡的性能,生成了逼真且高分辨率的图像,忠实地遵循相应的文本提示。尽管它们取得了巨大的成功,但在草图到图像合成任务中仍然落后,因为除了文本提示外,生成的图像的空间布局还必须紧密地遵循某些参考草图的轮廓。最近提出了一种采用MLP潜在边缘预测器来指导合成图像的空间布局的方法,该方法通过在每个去噪步骤中预测边缘图来实现。尽管产生了有希望的结果,但MLP的像素级操作没有将整个空间布局作为一个整体考虑进去,并且需要大量的去噪迭代才能产生令人满意的图像,导致时间效率低下。为此,我们介绍了U-Sketch,这是一个具有U-Net类型潜在边缘预测器的框架,能够有效地捕捉局部和全局特征以及像素之间的空间相关性。此外,我们提出了一个草图简化网络,为用户提供预处理和简化输入草图的选择,以获得更好的输出效果。实验结果得到了用户反馈的支持,证明了我们提出的U-Net潜在边缘预测器可以产生更逼真的结果,更好地与参考草图的空间轮廓相匹配,同时大大减少了所需的去噪步骤和总体执行时间。
-
- 图表
- 解决问题本文旨在解决草图到图像合成任务中的空间布局问题,即如何在生成图像时保证其空间布局与参考草图的轮廓相符。同时,本文也试图减少生成图像所需的迭代次数,提高效率。
- 关键思路本文提出了一种名为U-Sketch的框架,其中包含一个U-Net类型的潜在边缘预测器,能够高效地捕捉局部和全局特征,以及像素之间的空间相关性。此外,本文还提出了一个草图简化网络,可以对输入草图进行预处理和简化,以获得更好的输出效果。
- 其它亮点本文的实验结果表明,相比于以往的方法,U-Sketch框架能够生成更加逼真的图像,并且能够更好地与参考草图的空间轮廓相匹配。此外,U-Sketch还能够大幅减少所需的去噪步骤,从而提高了整体执行效率。本文使用了多个数据集进行实验,并提供了开源代码。
- 在草图到图像合成领域,最近的相关研究包括:SketchyGAN、StackGAN、AttnGAN等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流