- 简介扩散模型在文本到图像生成领域表现出了非凡的性能。然而,目前大多数使用的模型仍然采用CLIP作为文本编码器,这限制了它们理解密集提示的能力,包括多个对象、详细属性、复杂关系、长文本对齐等。本文介绍了一种高效的大型语言模型适配器(ELLA),它为文本到图像扩散模型配备了强大的大型语言模型(LLM),以增强文本对齐,而无需训练U-Net或LLM。为了无缝地连接两个预训练模型,我们研究了一系列语义对齐连接器设计,并提出了一种新的模块,即时间步感知语义连接器(TSC),它可以动态地从LLM中提取时间步依赖条件。我们的方法在去噪过程的不同阶段调整语义特征,帮助扩散模型在采样时间步中解释冗长和复杂的提示。此外,ELLA可以轻松地与社区模型和工具结合使用,以提高它们的提示跟随能力。为了评估文本到图像模型在密集提示跟随方面的表现,我们引入了密集提示图形基准(DPG-Bench),这是一个由1K个密集提示组成的具有挑战性的基准。广泛的实验表明,ELLA在密集提示跟随方面优于现有技术,特别是在涉及多个对象、不同属性和关系的组合中。
- 图表
- 解决问题本文旨在解决文本到图像生成中的一个问题:现有的模型使用CLIP作为文本编码器,限制了它们理解密集提示的能力,如包含多个对象、详细属性、复杂关系、长文本对齐等。
- 关键思路本文提出了一种名为ELLA的高效大语言模型适配器,将文本到图像扩散模型与强大的大语言模型相结合,以提高文本对齐能力,无需训练U-Net或大语言模型。ELLA通过调查一系列语义对齐连接器设计,提出了一种新型模块,即时间步感知语义连接器(TSC),它可以动态地从大语言模型中提取时间步相关条件。该方法在去噪过程的不同阶段调整语义特征,帮助扩散模型在采样时间步中解释冗长和复杂的提示。此外,ELLA可以轻松地与社区模型和工具结合使用,以提高其遵循提示的能力。
- 其它亮点本文的亮点包括:1. 提出了一种新的方法ELLA,通过使用大语言模型来提高文本到图像生成的能力;2. 引入了一个新的基准测试DPG-Bench,以评估模型在密集提示下的性能;3. 在多个对象组合和复杂关系方面,ELLA在密集提示下的表现优于现有方法。
- 最近在这个领域中,还有一些相关的研究,如《Generative Adversarial Text-to-Image Synthesis: A Survey》、《Text-to-Image Generation: A Survey》等。
沙发等你来抢
去评论
评论
沙发等你来抢