Interleaving Reasoning for Better Text-to-Image Generation

2025年09月08日
  • 简介
    统一的多模态理解和生成模型在图像生成能力方面最近取得了显著进展,但与像 GPT-4o 这类将理解与生成紧密结合的系统相比,在指令遵循和细节保留方面仍存在较大差距。受交错推理(interleaving reasoning)最新进展的启发,我们探索了此类推理机制是否能进一步提升文本到图像(Text-to-Image, T2I)生成的效果。 我们提出了“交错推理生成”(Interleaving Reasoning Generation,IRG)框架,该框架在基于文本的思考与图像合成之间交替进行:模型首先生成一段文本思考以指导生成初步图像,随后对生成结果进行反思,以在保持语义的基础上进一步优化细节、视觉质量和审美效果。为了有效训练 IRG,我们进一步提出了“交错推理生成学习”(Interleaving Reasoning Generation Learning,IRGL),其目标包括两个子任务:(1)强化初始的“思考-生成”阶段,以建立核心内容和基础质量;(2)实现高质量的文本反思,并在后续图像中忠实执行这些优化。 我们构建了 IRGL-300K 数据集,该数据集被组织为六种分解的学习模式,共同覆盖了基于文本的思考学习以及完整的“思考-图像”轨迹学习。我们的方法基于一个原生支持交错输出文本和图像的统一基础模型,采用两阶段训练策略:首先建立稳健的思考与反思能力,然后在完整的“思考-图像”轨迹数据上高效调优整个 IRG 流程。 大量实验表明,该方法在多个基准测试中取得了最先进的性能,在 GenEval、WISE、TIIF、GenAI-Bench 和 OneIG-EN 等指标上绝对提升了 5-10 分,同时在视觉质量和细粒度保真度方面也有显著提升。代码、模型权重和数据集将在以下地址发布:https://github.com/Osilly/Interleaving-Reasoning-Generation 。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决当前统一的多模态理解和生成模型在图像生成任务中虽然取得了显著进展,但在遵循指令和细节保留方面仍与GPT-4o等紧密耦合理解与生成的系统存在差距。论文试图验证通过交错推理(interleaving reasoning)是否可以进一步提升文本到图像(Text-to-Image, T2I)生成的质量。
  • 关键思路
    论文提出了一种名为Interleaving Reasoning Generation (IRG) 的框架,该框架交替进行文本推理与图像生成:首先通过文本推理引导生成初始图像,然后对生成图像进行反思并细化细节、视觉质量和美学效果。相比传统T2I模型,该方法引入了文本思考与图像生成的交替过程,以提升生成图像的语义准确性和视觉质量。
  • 其它亮点
    1. 提出了一种新的训练框架IRGL,包含两个阶段:第一阶段强化初始思考与生成,第二阶段优化反思与精细化生成。 2. 构建了一个大规模数据集IRGL-300K,包含六种学习模式,涵盖文本思考与图像生成的完整轨迹。 3. 实验结果表明,该方法在GenEval、WISE、TIIF等多个基准测试中取得SOTA性能,绝对提升了5-10分。 4. 开源代码、模型权重与数据集将发布在GitHub上(https://github.com/Osilly/Interleaving-Reasoning-Generation)。
  • 相关研究
    1. GPT-4o等多模态大模型中通过紧密耦合理解与生成实现高质量输出。 2. 近期关于交错推理(interleaving reasoning)在文本与图像生成中的应用研究,如‘Chain-of-Thought Prompting Elicits Reasoning in Large Language Models’。 3. 文本到图像生成模型如Stable Diffusion、DALL-E 3、Flamingo等在多模态生成中的进展。 4. 基于反思机制的生成模型,如‘Refined Prompting: Improving Prompt-based Methods with Iterative Refinement’。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问