Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think

2025年02月27日
  • 简介
    高级文本到图像生成领域正在见证统一框架的出现,这些框架集成了强大的文本编码器(如CLIP和T5)与扩散Transformer骨干。尽管已有尝试通过额外条件(如Canny边缘检测和深度图)来控制输出图像,但仍然缺乏一个全面的框架来实现任意文本和图像交织控制。这一差距在尝试合并多个图像中的概念或视觉元素时尤为明显。为了解决这一问题,我们进行了初步实验,表明大型多模态模型(LMMs)提供了一个有效的共享表示空间,在这里,图像和文本可以很好地对齐,作为外部扩散模型的条件。基于这一发现,我们提出了Dream Engine,这是一个高效且统一的框架,旨在为图像生成模型中的任意文本和图像交织控制提供支持。在强大的文本到图像模型(如SD3.5)的基础上,我们用多功能的多模态信息编码器(如QwenVL)替换了原有的纯文本编码器。我们的方法采用两阶段训练范式,包括文本-图像联合对齐和多模态交织指令微调。实验结果表明,这种训练方法是有效的,在GenEval基准上获得了0.69的总分,并且性能与最先进的文本到图像模型(如SD3.5和FLUX)相当。
  • 图表
  • 解决问题
    论文试图解决当前文本到图像生成模型中缺乏全面框架的问题,特别是对于任意文本-图像交织控制以及合并多个图像中的概念或视觉元素的能力。这是一个尚未被充分探索的领域,因此具有一定的新颖性。
  • 关键思路
    关键思路在于利用大型多模态模型(LMMs)提供的有效共享表示空间,将图像和文本对齐,作为外部扩散模型的条件。通过引入Dream Engine框架,该研究替换了传统的文本编码器,采用如QwenVL等多模态信息编码器,并使用两阶段训练范式:联合文本-图像对齐和多模态交织指令调优。这一方法在当前的研究中引入了更丰富的输入形式和更高的灵活性。
  • 其它亮点
    该研究展示了其方法的有效性,取得了GenEval基准测试0.69的总体得分,并且与SD3.5和FLUX等最先进的文本到图像模型相匹配。实验设计包括初步实验验证LMMs作为条件的有效性,以及详细的两阶段训练流程。虽然没有明确提到是否开源代码,但研究提供了重要的实证支持,表明未来可以进一步探索如何优化多模态信息处理,提高生成图像的质量。
  • 相关研究
    最近的相关研究包括CLIP、T5和Diffusion Transformer等模型的应用,这些模型已经在文本到图像生成方面取得了显著进展。其他相关研究还包括尝试通过额外条件(如Canny边缘检测和深度图)来控制输出图像的工作。一些值得关注的相关研究论文标题有《DALL-E: Creating Images from Text》、《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models》和《Make-A-Scene: Scene-Level Compositionality with Controllable Image Generation》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论