U-Sketch: An Efficient Approach for Sketch to Image Diffusion Models

向作者提问

NEW

简介

扩散模型在文本到图像合成方面表现出了非凡的性能，生成了逼真且高分辨率的图像，忠实地遵循相应的文本提示。尽管它们取得了巨大的成功，但在草图到图像合成任务中仍然落后，因为除了文本提示外，生成的图像的空间布局还必须紧密地遵循某些参考草图的轮廓。最近提出了一种采用MLP潜在边缘预测器来指导合成图像的空间布局的方法，该方法通过在每个去噪步骤中预测边缘图来实现。尽管产生了有希望的结果，但MLP的像素级操作没有将整个空间布局作为一个整体考虑进去，并且需要大量的去噪迭代才能产生令人满意的图像，导致时间效率低下。为此，我们介绍了U-Sketch，这是一个具有U-Net类型潜在边缘预测器的框架，能够有效地捕捉局部和全局特征以及像素之间的空间相关性。此外，我们提出了一个草图简化网络，为用户提供预处理和简化输入草图的选择，以获得更好的输出效果。实验结果得到了用户反馈的支持，证明了我们提出的U-Net潜在边缘预测器可以产生更逼真的结果，更好地与参考草图的空间轮廓相匹配，同时大大减少了所需的去噪步骤和总体执行时间。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决草图到图像合成任务中的空间布局问题，即如何在生成图像时保证其空间布局与参考草图的轮廓相符。同时，本文也试图减少生成图像所需的迭代次数，提高效率。
关键思路

本文提出了一种名为U-Sketch的框架，其中包含一个U-Net类型的潜在边缘预测器，能够高效地捕捉局部和全局特征，以及像素之间的空间相关性。此外，本文还提出了一个草图简化网络，可以对输入草图进行预处理和简化，以获得更好的输出效果。
其它亮点

本文的实验结果表明，相比于以往的方法，U-Sketch框架能够生成更加逼真的图像，并且能够更好地与参考草图的空间轮廓相匹配。此外，U-Sketch还能够大幅减少所需的去噪步骤，从而提高了整体执行效率。本文使用了多个数据集进行实验，并提供了开源代码。
相关研究

在草图到图像合成领域，最近的相关研究包括：SketchyGAN、StackGAN、AttnGAN等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问