SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models
解决问题:
该论文旨在解决现有的文本到图像生成模型在处理简洁叙述时存在的语义理解和常识推理能力不足的问题,以提高模型生成高质量图像的能力。这是一个新问题。

关键思路:
论文提出了一种名为Semantic Understanding and Reasoning adapter (SUR-adapter)的简单而有效的fine-tuning方法,用于预训练扩散模型。该方法通过对大型语言模型(LLMs)的知识蒸馏,将简洁叙述的语义表示与复杂的基于关键字的提示相对齐,并赋予SUR-adapter强大的语义理解和推理能力,以构建高质量的文本语义表示,从而提高文本到图像生成的质量。相比当前领域的研究,该论文的思路在于提出了SUR-adapter的方法,通过知识蒸馏将大型语言模型的知识传递给SUR-adapter,从而提高模型的性能。
其他亮点:
论文提出了一个新的数据集SURD,包含超过57,000个语义纠正的多模态样本,每个样本包含一个简单的叙述提示、一个复杂的基于关键字的提示和一个高质量的图像。论文还使用多个LLMs和流行的预训练扩散模型进行实验,证明了该方法的有效性。值得深入研究的工作包括如何进一步提高模型的性能和如何将该方法应用于其他领域。
关于作者:
主要作者包括Shanshan Zhong、Zhongzhan Huang、Wushao Wen、Jinghui Qin和Liang Lin。他们分别来自中国科学院自动化研究所、香港中文大学和南京邮电大学。他们之前的代表作包括《Deeply Learning the Messages in Message Passing Inference》、《Towards End-to-End Text Spotting with Convolutional Recurrent Neural Networks》等。
相关研究:
近期其他相关的研究包括《Generative Adversarial Networks for Text-to-Image Synthesis: A Review》(作者:Yan Zhang、Yi Yang、Yi Li,机构:University of Technology Sydney)、《Controllable Text-to-Image Generation》(作者:Shuai Yang、Pengchuan Zhang、Chao Ma、Yi Yang、Jian Sun,机构:Megvii Technology)等。
论文摘要:
本文介绍了一种名为Semantic Understanding and Reasoning adapter (SUR-adapter)的简单而有效的参数高效的微调方法,旨在为预训练扩散模型增强叙述性提示的能力。虽然扩散模型已经成为流行的文本到图像生成模型,但是当输入提示是简洁的叙述时,现有模型在语义理解和常识推理方面存在局限性,导致生成的图像质量较低。为了改善叙述提示的能力,作者首先收集并注释了一个新的数据集SURD,其中包含超过57,000个语义纠正的多模态样本。每个样本包含一个简单的叙述提示、一个复杂的基于关键词的提示和一张高质量的图像。
然后,作者将叙述提示的语义表示与复杂提示进行对齐,并通过知识蒸馏将大型语言模型(LLMs)的知识转移到SUR-adapter中,以便它可以获得强大的语义理解和推理能力,从而建立高质量的文本语义表示,用于文本到图像生成。作者通过整合多个LLMs和流行的预训练扩散模型进行实验,展示了他们的方法在使扩散模型理解和推理简洁的自然语言时没有影响图像质量的有效性。这种方法可以使文本到图像扩散模型更易于使用,提供更好的用户体验,有望通过弥合简单叙述提示和复杂基于关键词提示之间的语义差距,进一步推动用户友好的文本到图像生成模型的发展。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢