MMaDA: Multimodal Large Diffusion Language Models

2025年05月21日
  • 简介
    我们提出了 MMaDA,这是一种新型的多模态扩散基础模型,旨在于文本推理、多模态理解以及文生图生成等多个领域实现卓越性能。该方法具有以下三个关键创新点:(i)MMaDA 采用了一种统一的扩散架构,具备共享的概率建模和模态无关的设计,从而消除了对模态特定组件的需求。这种架构确保了不同类型数据之间的无缝集成与处理。(ii)我们实现了一种混合长链思维(Chain-of-Thought, CoT)微调策略,该策略在不同模态间构建了统一的 CoT 格式。通过将文本与视觉领域的推理过程对齐,这一策略为最终的强化学习(Reinforcement Learning, RL)阶段提供了冷启动训练支持,从而增强了模型从一开始就处理复杂任务的能力。(iii)我们提出了 UniGRPO,一种专为扩散基础模型设计的统一基于策略梯度的强化学习算法。通过引入多样化的奖励建模,UniGRPO 统一了推理与生成任务的后训练过程,确保性能的一致提升。 实验结果表明,MMaDA-8B 作为一种统一的多模态基础模型展现了强大的泛化能力。在文本推理方面,它超越了像 LLaMA-3-7B 和 Qwen2-7B 这样的强大模型;在多模态理解方面,它优于 Show-o 和 SEED-X;而在文生图生成方面,它也显著领先于 SDXL 和 Janus。这些成果充分证明了 MMaDA 在弥合预训练与后训练之间差距方面的有效性,为基于统一扩散架构的未来研究与开发提供了一个全面的框架。我们的代码和训练好的模型已开源,地址为:https://github.com/Gen-Verse/MMaDA
  • 图表
  • 解决问题
    该论文试图解决多模态任务中模型架构和训练方法的统一性问题,目标是通过一种通用的扩散模型架构(MMaDA)实现跨文本、视觉等多模态任务的卓越性能。这是一个重要且尚未完全解决的问题,尤其是在如何有效整合不同模态数据并优化推理与生成任务方面。
  • 关键思路
    论文提出了一种统一的扩散架构(modality-agnostic design),结合混合长链思维(CoT)微调策略和统一的基于策略梯度的强化学习算法(UniGRPO)。这种架构消除了对模态特定组件的需求,并通过强化学习进一步优化模型在复杂任务中的表现。相比现有研究,其创新点在于将扩散模型从单一任务扩展到多模态统一框架,同时引入了针对扩散模型的强化学习优化方法。
  • 其它亮点
    1. MMaDA模型在多个任务上表现出色,包括文本推理、多模态理解和图像生成;2. 提出了统一的CoT格式以促进跨模态推理能力;3. UniGRPO算法实现了生成与推理任务的后训练统一优化;4. 模型开源,代码和预训练模型已发布在GitHub上,便于后续研究;5. 实验设计全面,覆盖多种基准模型和数据集,验证了模型的泛化能力。
  • 相关研究
    近期相关研究包括:1. LLaMA系列模型在文本生成和推理方面的探索;2. SEED-X和Show-o在多模态理解领域的贡献;3. SDXL和Janus在文本到图像生成任务中的进展;4. 其他强化学习结合生成模型的研究,例如Reward Model for Diffusion Models (RM-Diff) 和 Policy Optimization for Generative Models (POGM)。这些工作共同推动了多模态AI的发展,但大多未实现如此高度的统一性和跨模态性能提升。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论