Beyond Language Modeling: An Exploration of Multimodal Pretraining

2026年03月03日
  • 简介
    视觉世界为推动基础模型超越纯语言范畴提供了至关重要的发展维度。尽管学界对此方向的兴趣日益增长,但原生多模态模型的设计空间仍缺乏清晰认知。我们通过严格控制、从零开始的预训练实验,排除了语言预训练的干扰,实证厘清了决定多模态预训练效果的核心因素。我们采用“Transfusion”框架:在语言模态上采用下一词预测(next-token prediction)目标,在视觉模态上则采用扩散模型(diffusion)目标,并在涵盖文本、视频、图像-文本对乃至动作条件化视频(action-conditioned video)在内的多样化数据上开展训练。我们的实验得出四项关键发现:(i)表征自编码器(Representation Autoencoder, RAE)可提供最优的统一视觉表征,同时在视觉理解与视觉生成任务上均表现卓越;(ii)视觉数据与语言数据具有天然互补性,二者协同训练能显著提升下游任务能力;(iii)统一的多模态预训练可自然催生世界建模(world modeling)能力,相关能力并非依赖特定设计,而是源于通用训练过程的自然涌现;(iv)混合专家(Mixture-of-Experts, MoE)架构不仅支持高效且强效的多模态模型扩展,还能在训练过程中自发诱导出各专家模块对不同模态的特化分工。借助等浮点运算量(IsoFLOP)分析,我们分别拟合了视觉与语言两种模态的缩放定律(scaling laws),并首次揭示了一种显著的缩放不对称性:视觉模态对数据的需求远高于语言模态。我们进一步证明,MoE架构恰能调和这一缩放不对称性——它既可通过高模型容量满足语言模态对参数规模的严苛要求,又能凭借其结构灵活性适配视觉模态对海量数据的依赖特性,从而为构建真正意义上统一的多模态基础模型铺平了道路。
  • 作者讲解
  • 图表
  • 解决问题
    如何设计真正统一的、从零开始预训练的原生多模态基础模型(而非依赖语言模型冻结或微调的后融合方案),并厘清视觉与语言模态在预训练中的内在交互规律、缩放特性及架构适配机制。这是一个相对新颖的问题,尤其强调‘无语言先验’的受控预训练范式。
  • 关键思路
    提出Transfusion框架——将语言建模(next-token prediction)与视觉建模(diffusion-based generation)原生耦合,并通过Representation Autoencoder(RAE)统一视觉表征、Mixture-of-Experts(MoE)架构实现模态自适应缩放,首次在从头预训练中系统解耦并量化了多模态协同的本质机制。
  • 其它亮点
    实验设计严格控制变量:全部模型均从scratch预训练,不复用任何预训练语言模型权重;覆盖文本、图像-文本对、视频、动作条件视频等异构数据;关键发现包括视觉比语言更数据饥渴(IsoFLOP scaling asymmetry)、RAE在理解与生成任务上全面优于ViT/MAE/SD-style表征、MoE自然诱导模态专家分工;论文未明确提及开源代码,但方法细节充分、数据构成清晰(含内部构建的动作视频数据集);值得深入的方向包括RAE的理论表征边界、MoE在跨模态tokenization中的泛化、以及世界建模能力的可解释性评测。
  • 相关研究
    Flamingo (2022), KOSMOS-1 (2023), LLaVA (2023), Qwen-VL (2023), Video-LLaMA (2023), InternVL (2024), SigLIP (2023), Stable Diffusion + LLM alignment works (e.g., SD-XL + LLaMA fusion attempts)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问