Paragraph-to-Image Generation with Information-Enriched Diffusion Model

2023年11月24日
  • 简介
    最近,文本到图像(T2I)模型经历了快速发展,其在保真度和文本对齐能力方面表现出惊人的性能。然而,对于一个长段落(长达512个单词),这些生成模型仍然难以实现强的对齐,并且无法生成描绘复杂场景的图像。本文介绍了一种信息丰富的扩散模型,用于段落到图像生成任务,称为ParaDiffusion,它深入研究了大型语言模型的广泛语义理解能力在图像生成任务中的转移。其核心是使用大型语言模型(例如Llama V2)对长文本进行编码,然后使用LORA进行微调,以在生成任务中对齐文本-图像特征空间。为了促进长文本语义对齐的训练,我们还策划了一个高质量的段落-图像对数据集,即ParaImage。该数据集包含少量高质量、精心注释的数据,以及使用视觉语言模型生成长文本描述的大规模合成数据集。实验表明,ParaDiffusion在ViLG-300和ParaPrompts上优于最先进的模型(SD XL、DeepFloyd IF),对于视觉吸引力和文本忠实度分别实现了高达15%和45%的人类投票率提高。代码和数据集将发布,以促进社区对长文本对齐的研究。
  • 图表
  • 解决问题
    论文试图解决长段落到图像生成领域中的文本与图像对齐问题,尤其是在生成复杂场景的图像时的困难。
  • 关键思路
    论文提出了一种信息丰富的扩散模型 ParaDiffusion,将大型语言模型的语义理解能力应用于图像生成任务,通过使用大型语言模型(如 Llama V2)对长文本进行编码,再使用 LORA 进行微调以实现文本与图像特征空间的对齐,同时使用 ParaImage 数据集来促进长文本语义对齐的训练。
  • 其它亮点
    ParaDiffusion 在 ViLG-300 和 ParaPrompts 数据集上的实验中表现优于现有的 SD XL 和 DeepFloyd IF 模型,视觉吸引力和文本忠实度的人类投票率分别提高了 15% 和 45%。ParaImage 数据集包含少量高质量的手动注释数据和大规模的合成数据集,使用视觉语言模型生成长文本描述。研究人员将发布代码和数据集以促进社区对长文本对齐的研究。
  • 相关研究
    在这个领域中还有一些相关研究,例如:《Generative Adversarial Text-to-Image Synthesis: A Review》、《Controllable Text-to-Image Generation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论