- 简介使用语言模型的扩散模型在图像生成任务中表现出优秀的可控性,使图像处理能够遵循人类指令。然而,缺乏多样化的指令跟随数据阻碍了有效识别和执行用户定制指令的模型的发展,特别是在低级任务中。此外,扩散过程的随机性导致在需要详细保留生成的图像的图像生成或编辑任务中存在不足。为了解决这些限制,我们提出了PromptFix,这是一个全面的框架,使扩散模型能够遵循人类指令执行各种图像处理任务。首先,我们构建了一个覆盖全面的图像处理任务,包括低级任务、图像编辑和对象创建的大规模指令跟随数据集。接下来,我们提出了一种高频率引导采样方法,以明确控制去噪过程并保留未处理区域的高频细节。最后,我们设计了一个辅助提示适配器,利用视觉语言模型(VLM)增强文本提示并改善模型的任务泛化能力。实验结果表明,PromptFix在各种图像处理任务中优于先前的方法。我们提出的模型在推断效率方面也达到了与这些基线模型相当的水平,并展示了在盲目恢复和组合任务中更优秀的零样本能力。该数据集和代码将在https://github.com/yeates/PromptFix上提供。
-
- 图表
- 解决问题本论文旨在解决图像生成和编辑任务中,缺乏多样化的指令数据和随机扩散过程导致的生成图像细节不足的问题。
- 关键思路论文提出了PromptFix框架,利用大规模指令数据集、高频率引导采样和辅助提示适配器等方法,使扩散模型能够遵循人类指令执行各种图像处理任务,并保留生成图像的高频细节。
- 其它亮点论文构建了一个大规模的指令数据集,包括低级任务、图像编辑和对象创建等全面的图像处理任务。同时,论文提出了高频率引导采样和辅助提示适配器等方法,提高了模型的任务泛化能力。实验结果表明,PromptFix在各种图像处理任务中表现出色,具有较好的推理效率和零样本能力。
- 近期相关研究包括:《Diffusion Models Beat GANs on Image Synthesis》、《Image Generation from Sketch Constraint Using Contextual GAN》、《Generative Adversarial Network-based Image Inpainting with a Normalized Convolutional Neural Network》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流