GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

2025年03月13日
  • 简介
    当前的图像生成和编辑方法主要将文本提示作为直接输入进行处理,而不会对视觉构成和显式操作进行推理。我们提出了生成链式思维(GoT),这是一种新颖的范式,通过在输出图像之前引入显式的语言推理过程来实现生成和编辑功能。这种方法将传统的文本到图像生成和编辑转换为一个由推理引导的框架,该框架能够分析语义关系和空间布局。我们定义了GoT的公式化方法,并构建了一个大规模的GoT数据集,其中包含超过900万样本,每个样本都带有详细的推理链,捕捉语义-空间关系。为了充分利用GoT的优势,我们实现了一个统一框架,该框架集成了Qwen2.5-VL用于生成推理链,并结合了由我们创新的语义-空间引导模块增强的端到端扩散模型。实验表明,我们的GoT框架在生成和编辑任务上表现出色,相较于基线方法有显著提升。此外,我们的方法支持交互式视觉生成,允许用户显式修改推理步骤以实现精确的图像调整。GoT开创了一种新的方向,即通过推理驱动的视觉生成和编辑,生成更符合人类意图的图像。为了促进未来的研究,我们在https://github.com/rongyaofang/GoT公开了我们的数据集、代码和预训练模型。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决当前图像生成和编辑方法缺乏对视觉组成和显式操作的推理能力的问题。这是一个新问题,因为它提出了将语言推理过程引入到图像生成中,以更好地捕捉人类意图。
  • 关键思路
    关键思路是提出Generation Chain-of-Thought (GoT)框架,通过显式的语言推理过程分析语义关系和空间布局,从而指导图像生成和编辑。相比现有方法直接处理文本提示,GoT引入了语义-空间引导模块,并结合Qwen2.5-VL模型进行推理链生成,增强了生成图像与用户意图的一致性。
  • 其它亮点
    论文构建了一个包含900多万样本的大规模GoT数据集,提供了详细的推理链条信息。实验结果表明,GoT在生成和编辑任务上显著优于基线模型,并支持用户交互式调整推理步骤以实现精确控制。此外,代码、预训练模型和数据集均已开源,便于后续研究。未来可以探索更复杂的语义推理和多模态输入的支持。
  • 相关研究
    相关研究包括:1) 文本到图像生成领域的代表性工作如DALL·E、Stable Diffusion等;2) 视觉-语言模型的研究,例如CLIP和Flamingo;3) 推理增强的生成模型,如Chain-of-Thought prompting在自然语言处理中的应用;4) 空间布局感知的图像合成方法,如LayoutGAN。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问