Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

2024年06月17日
  • 简介
    大型语言模型(LLMs)基于仅解码器的变压器相比CLIP和T5系列模型已经展示了更强的文本理解能力。然而,如何利用当前先进的LLMs在文本到图像扩散模型中仍需探索。我们观察到一个不寻常的现象:直接使用大型语言模型作为提示编码器会显著降低图像生成中的提示跟随能力。我们确定了这个问题背后的两个主要障碍。一个是LLM中下一个标记预测训练与扩散模型中的区分提示特征的要求之间的不对齐。另一个是解码器仅架构引入的固有位置偏差。为了解决这个问题,我们提出了一个新的框架,充分利用LLMs的能力。通过精心设计的使用指南,我们有效地增强了提示编码的文本表示能力,并消除了其固有的位置偏差。这使我们能够灵活地将最先进的LLMs集成到文本到图像生成模型中。此外,我们还提供了一种有效的方式将多个LLMs融合到我们的框架中。考虑到变压器架构展示的出色性能和扩展能力,我们进一步设计了基于框架的LLM-Infused Diffusion Transformer(LI-DiT)。我们进行了广泛的实验,以验证LI-DiT在模型大小和数据大小方面的性能。由于LLMs的固有能力和我们的创新设计,LI-DiT的提示理解性能轻松超过了开源模型和包括Stable Diffusion 3、DALL-E 3和Midjourney V6在内的主流闭源商业模型。经过进一步优化和安全检查,强大的LI-DiT-10B将通过在线平台和API提供。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决如何将大型语言模型应用于文本到图像生成模型中时,直接使用大型语言模型作为prompt编码器会显著降低其prompt-following能力的问题。
  • 关键思路
    论文提出了一种新的框架,通过精心设计的使用指南,有效增强了prompt编码的文本表示能力并消除了其固有的位置偏差,从而灵活地将最先进的大型语言模型集成到文本到图像生成模型中。
  • 其它亮点
    论文提出了一种新的框架LI-DiT,通过实验验证其在模型大小和数据大小方面的卓越性能。LI-DiT的prompt理解性能轻松超过了开源模型和主流闭源商业模型,包括Stable Diffusion 3、DALL-E 3和Midjourney V6。论文还提供了一种有效的方法来融合多个大型语言模型到框架中。
  • 相关研究
    最近的相关研究包括CLIP和T5系列模型,以及文本到图像生成模型如DALL-E和Stable Diffusion。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问