Zero-shot Text-guided Infinite Image Synthesis with LLM guidance

2024年07月17日
  • 简介
    文本引导的图像编辑和生成方法具有多种真实世界应用。然而,文本引导的无限图像合成面临几个挑战。首先,缺乏具有高分辨率和上下文多样性的文本-图像配对数据集。其次,基于文本扩展图像需要全局连贯性和丰富的局部上下文理解。以前的研究主要集中在有限的类别,例如自然景观,并且还需要在高分辨率图像上进行训练并配对文本。为了解决这些挑战,我们提出了一种新方法,利用大型语言模型(LLM)进行全局连贯性和局部上下文理解,而无需任何高分辨率文本-图像配对训练数据集。我们训练扩散模型,以LLM和视觉特征生成的全局和局部标题为条件来扩展图像。在推理阶段,给定一张图像和一个全局标题,我们使用LLM生成下一个局部标题来扩展输入图像。然后,我们使用全局标题、生成的局部标题和视觉特征来扩展图像,以考虑全局一致性和空间局部上下文。在实验中,我们的模型在定量和定性方面都优于基线。此外,我们的模型展示了在LLM引导下以零样本方式进行文本引导的任意大小图像生成的能力。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图解决text-guided infinite image synthesis面临的挑战,如缺少高分辨率、上下文多样化的文本-图像配对数据集,以及需要全局一致性和丰富的局部上下文理解等问题。
  • 关键思路
    本文提出了一种新方法,利用大语言模型(LLMs)进行全局一致性和局部上下文理解,而无需高分辨率的文本-图像配对训练数据集。该方法使用扩散模型来扩展一张图像,以全局和局部标题作为条件,这些标题是由LLM和视觉特征生成的。在推理阶段,给定一张图像和一个全局标题,使用LLM生成下一个局部标题来扩展输入图像。然后,使用全局标题、生成的局部标题和视觉特征来扩展图像,以考虑全局一致性和局部空间上下文。
  • 其它亮点
    本文的亮点在于,该模型在没有LLM引导下实现了文本引导任意大小的图像生成,并且在定量和定性实验中都优于基线模型。此外,本文还使用了多个数据集进行实验,并且开源了代码。
  • 相关研究
    最近的相关研究包括:《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Image Synthesis from Text with Semantic Attention》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问