ThinkGen: Generalized Thinking for Visual Generation

2025年12月29日
  • 简介
    近期多模态大语言模型(MLLM)的发展表明,思维链(Chain-of-Thought, CoT)推理能够为解决复杂的理解任务提供系统性方案。然而,将CoT推理扩展至生成任务的研究仍处于起步阶段,且受限于特定场景下的机制,难以实现良好的泛化与适应能力。在本研究中,我们提出了ThinkGen,这是首个基于“思考驱动”的视觉生成框架,能够显式地在多种生成场景中利用MLLM的CoT推理能力。Think-Gen采用一种解耦架构,包含一个预训练的MLLM和一个扩散变换器(Diffusion Transformer, DiT):其中MLLM根据用户意图生成定制化的指令,DiT则依据这些指令生成高质量图像。我们进一步提出一种可分离的基于GRPO的训练范式(SepGRPO),在MLLM与DiT模块之间交替进行强化学习。这种灵活的设计使得模型能够在多样化的数据集上实现联合训练,从而有效支持各种生成场景下的CoT推理。大量实验表明,ThinkGen在多个生成基准上均取得了稳定且领先的性能表现。代码已公开:https://github.com/jiaosiyuu/ThinkGen
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决多模态大语言模型(MLLMs)在生成任务中难以有效应用思维链(CoT)推理的问题。尽管CoT在复杂理解任务中表现出色,但其在视觉生成等生成场景中的扩展仍处于早期阶段,受限于特定场景的机制,缺乏通用性和可迁移性。这是一个相对较新的问题,尤其在将推理能力从理解迁移到生成任务方面。
  • 关键思路
    提出ThinkGen,首个显式利用MLLM的CoT推理能力驱动视觉生成的框架。其核心是解耦架构:预训练的MLLM根据用户意图生成带有推理过程的定制化指令,DiT(扩散Transformer)则基于这些指令生成高质量图像。相比现有工作,该方法首次将CoT的系统性推理直接用于指导生成过程,并通过可分离的训练范式实现模块化优化。
  • 其它亮点
    提出了SepGRPO训练范式,采用交替的强化学习分别优化MLLM和DiT模块,支持跨多样化数据集的联合训练。实验覆盖多个生成基准,验证了其鲁棒性和SOTA性能。代码已开源(https://github.com/jiaosiyuu/ThinkGen),具有良好的可复现性与扩展潜力。未来可深入研究CoT指令的可控性、跨模态对齐机制以及在视频或3D生成中的应用。
  • 相关研究
    1. Flamingo: Visual Language Models for Few-Shot Learning 2. PaLM-E: An Embodied Multimodal Language Model 3. KOSMOS-1: Multimodal Large Language Models 4. Align before Generate: Instruction Tuning for Text-to-Image Generation 5. Reinforcement Learning for Image Generation with Latent Diffusion Models
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问