大型语言模型(LLMs)基于仅解码器的变压器相比CLIP和T5系列模型已经展示了更强的文本理解能力。然而,如何利用当前先进的LLMs在文本到图像扩散模型中仍需探索。我们观察到一个不寻常的现象:直接使用大型语言模型作为提示编码器会显著降低图像生成中的提示跟随能力。我们确定了这个问题背后的两个主要障碍。一个是LLM中下一个标记预测训练与扩散模型中的区分提示特征的要求之间的不对齐。另一个是解码器仅架构引入的固有位置偏差。为了解决这个问题,我们提出了一个新的框架,充分利用LLMs的能力。通过精心设计的使用指南,我们有效地增强了提示编码的文本表示能力,并消除了其固有的位置偏差。这使我们能够灵活地将最先进的LLMs集成到文本到图像生成模型中。此外,我们还提供了一种有效的方式将多个LLMs融合到我们的框架中。考虑到变压器架构展示的出色性能和扩展能力,我们进一步设计了基于框架的LLM-Infused Diffusion Transformer(LI-DiT)。我们进行了广泛的实验,以验证LI-DiT在模型大小和数据大小方面的性能。由于LLMs的固有能力和我们的创新设计,LI-DiT的提示理解性能轻松超过了开源模型和包括Stable Diffusion 3、DALL-E 3和Midjourney V6在内的主流闭源商业模型。经过进一步优化和安全检查,强大的LI-DiT-10B将通过在线平台和API提供。
提问交流