- 简介我们推出Emu3.5,这是一种大规模多模态世界模型,能够原生地预测视觉与语言的下一个状态。Emu3.5在包含超过十万亿个token的视觉-语言交错数据语料库上,采用统一的下一token预测目标进行端到端预训练,这些数据主要来源于互联网视频的连续帧及其转录文本。该模型天然支持视觉与语言交错输入,并生成相应的交错式视觉-语言输出。此外,Emu3.5通过大规模强化学习进行后训练,以增强其多模态推理与生成能力。为了提升推理效率,我们提出了离散扩散自适应(Discrete Diffusion Adaptation, DiDA)方法,将逐token解码转化为双向并行预测,使每张图像的推理速度提升约20倍,同时不损失性能。Emu3.5展现出强大的原生多模态能力,包括长视野的视觉-语言生成、任意模态到图像(X2I)生成以及复杂的富含文本的图像生成。它还具备可泛化的世界建模能力,能够在多种场景和任务中实现时空一致的世界探索和开放世界的具身操作。作为对比,Emu3.5在图像生成与编辑任务上的表现与Gemini 2.5 Flash Image(Nano Banana)相当,并在一系列交错生成任务中展现出更优的结果。我们已在https://github.com/baaivision/Emu3.5 开源Emu3.5,以支持社区的研究工作。
-
- 图表
- 解决问题论文旨在解决多模态世界模型在跨视觉与语言的联合序列建模中的局限性,特别是如何实现原生的、端到端的视觉-语言状态预测。传统方法通常将图像和文本分离处理,或依赖于自回归逐token生成,导致推理效率低且难以建模长时序的跨模态动态。Emu3.5试图验证:通过大规模视频帧与转录文本交织数据训练一个统一的下一标记预测模型,能否构建具备通用世界理解与生成能力的原生多模态模型。这是一个较新的问题,尤其是在‘原生多模态序列建模’和‘世界模型用于开放环境交互’方向上。
- 关键思路Emu3.5的核心思想是将视觉与语言视为统一的token序列,采用端到端的统一下一token预测目标进行预训练,直接在超过10万亿token的视频帧与文本交织数据上学习跨模态状态转移。其创新在于:(1) 模型原生支持视觉-语言交错输入输出,实现真正的多模态状态预测;(2) 引入Discrete Diffusion Adaptation (DiDA),将传统的自回归逐token解码转化为双向并行预测,显著提升图像生成速度(约20倍)而不损失质量;(3) 结合大规模强化学习后训练,增强多模态推理与决策能力。相比现有工作(如Flamingo、Gemini等),Emu3.5更强调‘世界模型’属性——即对环境状态的持续预测与操控能力,而不仅是感知或生成。
- 其它亮点亮点包括:(1) 模型展现出强大的原生多模态能力,如长视野视觉-语言生成、任意到图像(X2I)生成、富含文本的图像生成;(2) 具备可泛化的世界建模能力,支持时空一致的世界探索与开放世界具身操作;(3) 在图像生成与编辑任务上性能媲美Gemini 2.5 Flash Image(Nano Banana),并在交错生成任务上表现更优;(4) 实验基于超大规模互联网视频数据(帧+字幕),体现真实世界动态建模潜力;(5) 已开源代码与模型,地址为 https://github.com/baaivision/Emu3.5,极大促进社区研究;(6) DiDA技术为高效离散扩散建模提供了新路径,值得深入探索。
- 1. PaLM-E: An Embodied Multimodal Language Model (2023) 2. Flamingo: a Visual Language Model for Few-Shot Learning (2022) 3. KOSMOS-1: Multimodal Large Language Models Meet Multi-Modal World (2023) 4. LLaVA: Large Language and Vision Assistant (2023) 5. Gemini: A Family of Highly Capable Multimodal Models (2023) 6. Chameleon: A Foundational Multimodal Model with Discrete Token-based Interaction (2024) 7. VideoPoet: A Large Language Model for Zero-Shot Video Generation (2024)
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流