Zero-shot Text-guided Infinite Image Synthesis with LLM guidance

向作者提问

NEW

简介

文本引导的图像编辑和生成方法具有多种真实世界应用。然而，文本引导的无限图像合成面临几个挑战。首先，缺乏具有高分辨率和上下文多样性的文本-图像配对数据集。其次，基于文本扩展图像需要全局连贯性和丰富的局部上下文理解。以前的研究主要集中在有限的类别，例如自然景观，并且还需要在高分辨率图像上进行训练并配对文本。为了解决这些挑战，我们提出了一种新方法，利用大型语言模型（LLM）进行全局连贯性和局部上下文理解，而无需任何高分辨率文本-图像配对训练数据集。我们训练扩散模型，以LLM和视觉特征生成的全局和局部标题为条件来扩展图像。在推理阶段，给定一张图像和一个全局标题，我们使用LLM生成下一个局部标题来扩展输入图像。然后，我们使用全局标题、生成的局部标题和视觉特征来扩展图像，以考虑全局一致性和空间局部上下文。在实验中，我们的模型在定量和定性方面都优于基线。此外，我们的模型展示了在LLM引导下以零样本方式进行文本引导的任意大小图像生成的能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决text-guided infinite image synthesis面临的挑战，如缺少高分辨率、上下文多样化的文本-图像配对数据集，以及需要全局一致性和丰富的局部上下文理解等问题。
关键思路

本文提出了一种新方法，利用大语言模型（LLMs）进行全局一致性和局部上下文理解，而无需高分辨率的文本-图像配对训练数据集。该方法使用扩散模型来扩展一张图像，以全局和局部标题作为条件，这些标题是由LLM和视觉特征生成的。在推理阶段，给定一张图像和一个全局标题，使用LLM生成下一个局部标题来扩展输入图像。然后，使用全局标题、生成的局部标题和视觉特征来扩展图像，以考虑全局一致性和局部空间上下文。
其它亮点

本文的亮点在于，该模型在没有LLM引导下实现了文本引导任意大小的图像生成，并且在定量和定性实验中都优于基线模型。此外，本文还使用了多个数据集进行实验，并且开源了代码。
相关研究

最近的相关研究包括：《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Image Synthesis from Text with Semantic Attention》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问