ThinkGen: Generalized Thinking for Visual Generation

向作者提问

NEW

简介

近期多模态大语言模型（MLLM）的发展表明，思维链（Chain-of-Thought, CoT）推理能够为解决复杂的理解任务提供系统性方案。然而，将CoT推理扩展至生成任务的研究仍处于起步阶段，且受限于特定场景下的机制，难以实现良好的泛化与适应能力。在本研究中，我们提出了ThinkGen，这是首个基于“思考驱动”的视觉生成框架，能够显式地在多种生成场景中利用MLLM的CoT推理能力。Think-Gen采用一种解耦架构，包含一个预训练的MLLM和一个扩散变换器（Diffusion Transformer, DiT）：其中MLLM根据用户意图生成定制化的指令，DiT则依据这些指令生成高质量图像。我们进一步提出一种可分离的基于GRPO的训练范式（SepGRPO），在MLLM与DiT模块之间交替进行强化学习。这种灵活的设计使得模型能够在多样化的数据集上实现联合训练，从而有效支持各种生成场景下的CoT推理。大量实验表明，ThinkGen在多个生成基准上均取得了稳定且领先的性能表现。代码已公开：https://github.com/jiaosiyuu/ThinkGen
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决多模态大语言模型（MLLMs）在生成任务中难以有效应用思维链（CoT）推理的问题。尽管CoT在复杂理解任务中表现出色，但其在视觉生成等生成场景中的扩展仍处于早期阶段，受限于特定场景的机制，缺乏通用性和可迁移性。这是一个相对较新的问题，尤其在将推理能力从理解迁移到生成任务方面。
关键思路

提出ThinkGen，首个显式利用MLLM的CoT推理能力驱动视觉生成的框架。其核心是解耦架构：预训练的MLLM根据用户意图生成带有推理过程的定制化指令，DiT（扩散Transformer）则基于这些指令生成高质量图像。相比现有工作，该方法首次将CoT的系统性推理直接用于指导生成过程，并通过可分离的训练范式实现模块化优化。
其它亮点

提出了SepGRPO训练范式，采用交替的强化学习分别优化MLLM和DiT模块，支持跨多样化数据集的联合训练。实验覆盖多个生成基准，验证了其鲁棒性和SOTA性能。代码已开源（https://github.com/jiaosiyuu/ThinkGen），具有良好的可复现性与扩展潜力。未来可深入研究CoT指令的可控性、跨模态对齐机制以及在视频或3D生成中的应用。
相关研究

1. Flamingo: Visual Language Models for Few-Shot Learning 2. PaLM-E: An Embodied Multimodal Language Model 3. KOSMOS-1: Multimodal Large Language Models 4. Align before Generate: Instruction Tuning for Text-to-Image Generation 5. Reinforcement Learning for Image Generation with Latent Diffusion Models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问