博士论文 | EPFL 2025 | 在多模态基础模型中扩展模态能力 199页

拥有一个能够处理广泛且多样任务和模态的神经网络一直是长期以来的目标。这样的模型带来了诸多显著优势，如测试时的计算效率、模态融合以及模型规模的缩减。本论文的目标是推动统一的多模态基础模型的构建，使其能够处理多种输入（如图像、文本、三维、语义以及其他感知数据），以解决包括场景理解、生成和检索在内的各种现实任务。

我们的方法应对了三大核心挑战：（1）获取多样且高质量的训练数据；（2）构建可扩展的训练框架；（3）评估与基准测试。

第一个挑战是多模态训练中标注数据的稀缺性。作为补救方法，可以利用现有神经网络生成的伪标签来为不同模态生成数据，从而实现可扩展的数据构造。然而，这种方法在现实世界中难以奏效，原因在于这些模型在实际环境中的脆弱性。为应对这一问题，论文的第一部分我们构建了鲁棒性机制，以开发强大的伪标注网络，并充分利用现成的预训练模型。这些机制旨在应对现实世界中的分布偏移问题，具体包括：现实数据增强（3D 通用扰动），强制一致性约束（跨任务一致性），利用自监督领域（跨领域集成）和预训练视觉骨干（BRAVE）进行多样化集成，通过误差反馈进行测试时自适应（快速网络适配）。

在此基础上，论文第二部分将上述伪标签器和强大的视觉编码器生成的数据整合进一个统一的训练框架（4M）。通过基于掩码建模的多模态训练目标以及“任意对任意（any-to-any）”的模型架构，我们将训练扩展到数十个任务和模态，及数十亿模型参数的规模。这一方法被命名为 4M-21，实现了多样的能力，包括强大的即用型视觉性能、任意条件生成与可控生成、跨模态检索以及多感知融合，全部集成于一个模型中。

最后，我们对所构建模型的能力进行了定性与定量分析，覆盖广泛的任务、数据集和基准测试。同时，我们还对当前主流的闭源多模态基础模型（如 GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet）在若干经典计算机视觉任务（如语义分割、目标检测、深度估计）上的表现进行了“状态检验”，通过开发提示链技术，使其能与专业视觉模型进行直接对比。我们发现，这些模型虽具备可观的通用能力，但在所有任务中均未达到最先进水平，表明模型发展仍有广阔的提升空间。

论文题目：Scaling the Modalities in Multimodal Foundation Models

作者：Kar, Oguzhan Fatih

类型：2025年博士论文

学校：École Polytechnique Fédérale de Lausanne（瑞士洛桑联邦理工学院）

下载链接：

链接: https://pan.baidu.com/s/1YrqVFM6LlvzZ5ju4UYLC_g?pwd=2a8u

硕博论文汇总：

链接: https://pan.baidu.com/s/1Gv3R58pgUfHPu4PYFhCSJw?pwd=svp5

我们对世界的体验本质上是多模态的。我们运用触觉和视觉来识别地毯的质地，结合视觉和听觉输入在嘈杂的房间里识别朋友的声音，或者依靠嗅觉和味觉来充分品尝橙子的美味。在认知研究中，这种通过多种感官模态感知世界的能力被认为是人类感知认知发展的基础[281]。具体而言，不同的模态对底层现实提供了互补的视角，这可以产生有用的学习信号，使它们能够相互改进，并创建用于处理各种现实世界任务的鲁棒表征[243,220, 179, 87, 281]。

在深度学习中，在人工智能系统中复制这些多模态感知和任务解决能力一直是一个长期目标 [233, 22]。为了实现这一目标，一个关键步骤是构建单模态模型来成功处理单个任务。例如，在计算机视觉领域，语义分割 [104, 293]、单目深度估计 [217]、物体检测 [378]、字幕 [137, 284] 和视觉问答 [325, 212] 等任务传统上都是使用特定于任务的深度学习模型来解决的，这些模型以 RGB 图像作为输入模态。然而，随着任务数量的增加，为每个任务训练单独的模型会变得计算成本高昂。多任务学习提供了一种解决方案，它允许单个模型同时处理多个任务 [44, 89, 226, 264, 367]，由于模型可以重用学习到的表示，从而提高计算效率和参数效率。此外，它还能实现跨任务的共享表征，从而为通过迁移学习迁移到新的下游任务提供更好的基础模型 [356, 240, 375]。多模态学习通过使用图像、文本、视频、音频和 3D 数据等多种模态作为输入，进一步扩展了范围 [249, 246, 229, 154, 11, 110, 331]。这使得模型能够进行模态融合并从跨模态关系中学习，从而丰富其对底层模式的理解，并为开发跨模态的统一表征提供途径 [296, 149]。

尽管取得了显著进展，但在种类繁多、规模庞大的任务和模态上成功训练模型却异常困难。尤其对于多任务学习而言，存在诸多问题，例如：选择训练任务[356, 283, 98]、跨不同任务的损失平衡[170, 61, 350]，以及确保不同任务间的预测一致性[174, 329, 355]。同样，对于多模态学习，一些研究也致力于构建有效的模态融合方法[13, 205, 239, 229, 153]以及协调不同模态[317, 122, 189, 246, 110, 124]。由于现有数据集规模过小或多样性不足，多样化且高质量的多模态训练数据的匮乏进一步加剧了这些挑战。最后，缺乏统一的训练框架，使得开发像自然语言领域那样的“可扩展模型”变得不可行[162, 136]，即拥有更多参数、计算能力、训练数据和模态、能力更强大、更通用的模型。

在本文中，我们提出了一个框架来应对这些核心挑战，使训练能够扩展到数十种任务和模态，为统一模型的设计和训练铺平了道路。这些模型可以处理图像、文本、3D、语义和其他传感数据等多种模态，从而解决各种现实世界的任务，包括场景理解、任意条件生成和检索。它们也被称为多模态基础模型 (MFM)，与单模态模型 [32] 一样，能够实现强大而多样的开箱即用功能，并提供强大的初始化功能来解决新颖的下游任务，同时还具有多种优势，包括测试时计算效率、模型大小减小和模态融合。

我们的方法解决了构建多模态模型 (MFM) 的三个核心挑战：1）获取多样化且高质量的训练数据；2）统一的多模态训练；3）评估和基准测试。接下来，我们将分别详细介绍每个挑战。

获取多样化且高质量的训练数据

多模态训练的标记数据是一个关键瓶颈，因为现有数据集要么模态有限 [88]，要么规模太小 [262]，要么多样性不足 [356]。一种可扩展的解决方案是利用现有的神经网络进行伪标记 [109, 17]，从而为不同模态生成数据。然而，由于这些模型在现实世界中的脆弱性（即鲁棒性不足），这种方法变得不可行。

鲁棒性不足是一个常见问题，当模型在现实世界中部署时，会自然地遇到与其训练数据分布偏移的情况。这些偏移包括低级失真（例如运动模糊和光照变化）以及语义失真（例如物体遮挡）。它们中的每一个都代表着模型的一种可能的故障模式，并且已被频繁证明会导致极不可靠的预测 [82, 130, 288, 159, 106]。在论文的第一部分，我们构建了缓解这些鲁棒性问题的机制，使我们能够开发强大的伪标记网络，并利用现成的预训练模型中的表征。

统一的多模态训练

如第一节所述，在维度、数据类型和值范围差异很大的任务和模态上训练单个网络会带来诸多复杂性。近期，在多模态和多任务训练领域，一些值得关注的研究成果，例如 Pix2Seq [55, 56]、OFA [314] 或 Unified-IO [211, 209]，在统一概念上不同的输入和目标的表征空间方面取得了重大进展。它们的成功很大程度上归功于将不同模态转换为一个通用的表征，即离散标记序列，并在其上训练相对标准的 Transformer [306] 架构。虽然这些研究成果颇具前景，但它们通常只在一小部分模态上进行训练。

在论文的第二部分，我们将第一部分得到的多模态训练数据整合到一个统一的训练框架中，我们将其命名为 4M-21 [18]。使用基于掩蔽模型 [78, 127] 的多模态训练目标、“任意对任意” Transformer 架构以及针对特定模态的分词器，我们成功地将 4M [227] 预训练数据扩展到数十个任务、数十种模态以及数十亿个模型参数。我们通过开箱即用的评估、单模态和多模态迁移、定性分析和探索，全面评估了所得模型在广泛任务上相对于多个基准的性能。

评估与基准测试

最后，除了对所开发的模型进行评估之外，我们还对领先的闭环权重模型 (MFM) 进行了深入的视觉感知分析，例如 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5 Sonnet [236, 258, 12]。这些模型在近几个月取得了长足的进步，其演示效果令人印象深刻 [236]。然而，尽管社区已经广泛研究了它们卓越的语言能力 [133, 54,259, 65]，但相比之下，它们的视觉能力研究不足。我们仍然缺乏对它们在成熟视觉任务和数据集上的表现的充分理解，尤其是在不同的视觉维度上，例如语义、3D、分组等。

在论文的第三部分，我们通过在成熟的视觉任务（例如分类、目标检测、语义分割、分组、深度预测和表面法线预测）和数据集 [195, 262, 268] 上评估 MFM 来解决这个问题。然而，大多数此类任务需要密集的像素级预测，而这与 MFM 的默认文本输出并不容易兼容。为了解决这个问题，我们将每个任务拆分为多个子任务，每个子任务都可以通过提示以文本形式进行求解，从而形成一个提示链框架，该框架可应用于任何具有图文界面（例如 ChatBot API）的 MFM，以解决标准视觉任务。这使我们能够系统地对 MFM 进行基准测试，并与视觉专家进行同类比较。关键在于，我们发现，虽然目前的 MFM 在视觉性能方面还无法与最先进的视觉模型相提并论，但它们是相当出色的多面手，这一点非常了不起，因为它们很可能主要接受基于图像文本任务的训练。

论文概要

我们将论文分为三个部分：第一部分：模态处理；第二部分：多模态训练；第三部分：分析。概述请参见图 1。

第一部分基于以下论文：

• 第二章基于 [163] (CVPR 2022，口头报告)，其中介绍了 3D 常见损坏。这是一个利用场景几何和语义生成逼真分布偏移的框架。这些偏移可作为具有挑战性的鲁棒性基准，也可用于数据增强以增强模型鲁棒性。它们可扩展到标准数据集，并被纳入 RobustBench [70] 基准测试。由此产生的模型已被社区（演示）用作强伪标签器，并且也被我们用于训练第二部分中的多模态模型。

• 第三章基于 [165]（ECCV 2024，口语）的成果，其中介绍了 BRAVE，这是一个高效的预训练框架，可以组合来自多个预训练视觉编码器（例如 CLIP [246]、DINOv2 [237] 和 ViT-e [58]）的多种视觉特征。BRAVE 在多个字幕和视觉问答基准测试中取得了最佳性能。它还显著减少了视觉幻觉和对某些图像特征的盲视，从而提高了 VLM 的鲁棒性。总而言之，BRAVE 展示了将不同的预训练编码器组合成统一模型的可行性和实用性，这也激励我们将其纳入多模态训练框架。

第二部分基于以下论文：

• 第四章基于我们在 4M-21 [18] (NeurIPS 2024) 上的工作，并以 4M [227] (NeurIPS 2023，Spotlight) 为背景。4M 是一个可扩展的预训练框架，用于训练能够以任意模态组合作为输入并通过掩码建模预测任何其他模态的模型。4M-21 将 4M 预训练扩展到 21 种不同类型的任务和模态，并提出了针对特定模态的标记化方法。我们成功地将训练扩展到 30 亿参数模型，演示了视觉和语言的协同训练，并展示了强大的开箱即用的视觉性能、任意条件和可控的生成、跨模态检索和多感官融合，所有这些都集成在一个模型中（演示）。

最后一部分基于以下论文：

• 第五章基于 [250]，该论文量化了流行的多模态基础模型（例如 GPT-4o、Gemini Pro、Claude 3.5）在标准计算机视觉任务（例如语义分割、目标检测、深度估计）和数据集（例如 COCO、ImageNet）上的性能。为此，我们将视觉任务转换为文本提示格式，并开发了提示链技术来解决这些问题。我们发现，这些模型远非最先进的视觉模型，但它们是值得尊敬的通用模型，并且 GPT-4o 总体上处于领先地位。我们对其进行了多项比较，包括开放权重多模态基础模型和最先进的视觉专家基线模型，以及对不同提示技术的简化处理。

使用 3D 信息生成真实世界的损坏。上行显示了均匀应用于图像的 2D 损坏示例，例如在“常见损坏”[130] 中，忽略了 3D 信息。这会导致现实世界中不太可能发生的损坏，例如，无论与相机的距离如何，整个图像的运动模糊都相同（左上）。中间行显示了来自 3D 常见损坏 (3DCC) 的 3D 对应图像。圆圈区域突出显示了合并 3D 信息的效果。更具体地说，在 3DCC 中，1. 运动模糊具有运动视差效果，即距离相机较远的物体看起来移动得较少；2. 散焦模糊具有景深效果，类似于真实相机中的大光圈效果，可以选择图像的某些区域使其对焦；3. 光照在照亮场景并在物体上投射阴影时会考虑场景的几何形状；4. 雾气离相机越远，浓度就越高；5. 目标物体（例如冰箱（蓝色遮罩））的遮挡是通过改变相机的视点并使其视图被另一个物体（例如植物（红色遮罩））自然遮挡而产生的。这与随机丢弃色块的 2D 对应物形成了对比 [80]。有关该图的视频版本，请参阅项目页面。

新的损坏。我们提出了一系列新的损坏操作，涵盖从散焦（近/远焦）到光照变化以及 3D 语义损坏，例如物体遮挡。这些损坏均自动生成，计算高效，并且可以应用于大多数数据集（第 2.4.3 节）。我们表明，它们暴露了模型中的漏洞（第 2.6.2 节），并且很好地近似了现实损坏（第 2.6.2 节）。最后一列标记的部分损坏是现实世界中常见的新型损坏，但并非基于 3D 图像。我们将它们纳入基准测试。对于遮挡和尺度损坏，蓝色和红色蒙版分别表示物体的非模态可见部分和被遮挡部分，例如冰箱。

左图：我们展示了创建每种损坏所需的输入，例如深度和 RGB 图像等 3D 信息。这些损坏也根据其损坏类型进行了分组（以实线表示）。例如，要创建右侧虚线框中的扭曲，只需要 RGB 图像及其对应的深度。对于左侧虚线框中的损坏，则需要 3D 网格。请注意，如果可用，也可以从全景图像创建视图变化损坏，而无需网格。右图：作为示例，我们展示了如何高效地生成景深效果。首先，通过离散场景深度将场景分割成多个图层。接下来，选择一个区域保持对焦（此处为距离相机最近的区域）。然后，我们使用针孔相机模型，根据每个图层与对焦区域的距离计算相应的模糊级别。最终的重新对焦图像是通过合成模糊图像图层获得的。

3DCC 随位移强度增加的可视化效果。上图：随着位移强度的增加，模糊程度加深，光照减弱，雾气更浓。下图：通过计算视点变化，物体被遮挡程度加深或尺寸缩小。蓝色蒙版表示冰箱/沙发的非模态可见部分，红色蒙版表示被遮挡的部分。最左列显示清晰图像。所有位移强度下所有损坏图像的可视化效果见附录。

3DCC 可以应用于大多数数据集，即使是那些不包含 3D 信息的数据集。以下展示了来自 ImageNet [77] 和 COCO [194] 数据集的几张查询图像，分别应用了近焦、远焦和雾化 3D 损坏效果。请注意，圆圈区域中的物体是如何根据焦点区域和场景几何形状从清晰变为模糊的。为了获取创建这些损坏所需的深度信息，我们使用了 MiDaS [252] 模型的预测。这提供了足够好的近似值，可以生成逼真的损坏效果（我们将在 2.6.2 节中进行量化）。

使用 3D 数据增强技术对来自 OASIS [57]、AE（第 2.6.2 节）、手动收集的 DSLR 数据以及野外 YouTube 视频的随机查询进行表面法线学习的定性结果。当无法获取真实数据时，例如 YouTube，真实数据为灰色。最后两行的预测来自 O+DPT+2DCC+3D（我们的）模型。该模型进一步使用跨任务一致性 (X-TC) 约束 [354]（我们的模型 + X-TC）进行训练。它们明显更加清晰和准确。更多结果请参阅项目页面和附录。用户上传图像的现场演示也已提供。

从 3DCC 可视化不同采样角度的视图变化损坏情况。

我们提出 BRAVE 来拓展视觉语言模型 (VLM) 的视觉能力。左图：与现有方法（例如 InstructBLIP [72] 或 LLaVA-1.5 [200]）相比，这些方法使用单个视觉编码器 [192, 299]，BRAVE 将来自多个视觉编码器的多样化特征组合成一个更通用、更紧凑的表示。示例取自 [299]，用于评估 VLM 区分具有视觉差异的图像的能力。右图：BRAVE 在各种字幕和视觉问答任务上均取得了最佳性能。此外，它显著提升了常用视觉编码器无法达到的基准测试 [299] 上的性能。

BRAVE 概览。左图：我们保持所有视觉编码器 (VE) 和语言模型 (LM) 不变。线性投影层用于按序列连接来自 K 个不同 VE（例如 K = 5）的特征。然后，这些特征由 MEQ-Former 进行重采样，MEQ-Former 接受一组可学习的查询和一个描述任务的文本提示作为输入。MEQ-Former 的输出使用全连接 (FC) 层投影到语言模型 (LM) 的输入空间。可训练参数总数为 116M（约占总参数的 1%）。右图：MEQ-Former 的架构，具有 N = 12 个 Transformer 层。它通过交叉注意力层与连接的特征进行交互，并产生一个固定长度的输出作为语言模型 (LM) 的输入。

定性结果。我们比较了 BRAVE 和 VLM 与不同视觉编码器（例如 CLIP）在 MMVP 基准测试样本上的预测结果。根据 [299]，只有当模型能够正确识别一对图像中的两幅图像，即能够成功区分具有语义差异的图像时，才认为该模型正确。需要注意的是，一对图像是独立呈现的，即其中任何一张图片都不是另一张图片的背景。所有编码器都会输出一些正确的预测，但没有一个能在广泛的输入范围内始终表现良好。BRAVE 通过结合不同的视觉特征来缓解这个问题，从而获得更一致的性能。两者之间的定量差异确实非常明显：BRAVE 为 42%，而最佳单个编码器为 27.3%（表 3.2 和 3.4）。更多定性结果请参见附录。

VQA 的定性结果。这是主论文中图 3 的扩展。示例对取自 [299]。与近期方法 [72, 200] 以及基于单视觉编码器的 VLM 基线相比，4M-21 显著提升了针对各种挑战性输入的性能。主论文的表 4 中也定量地展示了这一改进。另一方面，有些示例对于所有 VLM 来说仍然具有挑战性，例如那些需要细粒度文本或场景理解的示例，在未来的研究中，加入针对这些示例的额外偏差可能会使其受益。

我们演示了如何在数十种高度多样化的模态上训练单个模型，而且与专门的单任务/少量任务模型相比，性能不会有任何损失。模态使用特定于模态的分词器映射到离散的分词器。该模型可以从模态的任意子集生成任意模态。

一对多生成。4M-21 可以从任何给定的输入模态生成所有模态，并且可以从链式生成中获益 [227]。请注意，对于同一输入，所有模态的预测之间具有高度一致性。每一行都从来自同一场景的不同模态开始。绿色突出显示的是 4M [227] 无法预测或接受为输入的新输入/输出对。请注意，虽然该图显示的是单个输入的预测，但 4M-21 可以从所有模态的任意子集生成任意模态。

方法概述。（左图）：4M 是一个用于训练多模态和多任务模型的框架，这些模型可对多种图像模态（例如 RGB、深度等）和序列模态（例如字幕和边界框）的标记化版本进行操作。（右图）：4M 预训练目标包括训练一个 Transformer 编码器-解码器，使其基于另一个随机标记子集来预测从所有模态中采样的随机选择的标记子集。

分词概述。我们根据不同模态的格式和性能，采用合适的分词方案。对于类似图像的模态和特征图，我们使用空间向量量化-变分自编码器 [304]，并可选用扩散解码器来处理细节丰富的模态，例如 RGB 模态。对于非空间模态，例如全局分词或参数化姿态，我们使用 Memcodes [215] 和多层感知器 (MLP) 编码器和解码器，将它们压缩为固定数量的离散分词。所有序列模态均使用 WordPiece [79] 编码为文本。所示示例是真实的分词器重建结果。请注意，重建误差较低。更多详情，请参阅 4.8.1 节。

链式多模态生成。此简化示例演示了如何使用 MaskGIT [45] 解码方案，从部分 RGB 和边界框输入生成完整的 RGB 图像，然后自回归生成标题。需要注意的是，通过链式生成（即在生成后续模态时使用完整生成的模态作为条件），我们可以以自洽的方式预测多种模态。这与从原始条件独立生成每个模态的方式不同，在原始条件独立生成中，每个生成的输出与输入一致，但不一定与其他输出一致。图 4.2 为链式生成的可视化示例。生成的标记可以使用去标记器转换回图像、文本和其他模态。

细粒度且可操控的多模态生成。左上：4M-21 可以生成基于任何输入模态（此处为人体姿势）的图像变体。左下：这使我们能够执行多模态编辑（例如，编辑多边形的形状或基于边缘生成），并探测学习到的表征。例如，只需改变椭圆的形状，4M-21 就能从不同角度渲染碗。右上：通过对 21 种模态（包括 T5-XXL 嵌入）进行预训练，并在大型文本语料库上与语言模型进行协同训练，我们展示了更出色的文本理解能力（即使输入是字幕而非语言模型嵌入）。右下：与仅从字幕生成图像相比，元数据提供了一种更直接、更可操控的方式来控制多模态数据生成过程，从而为生成式数据集设计的进一步研究提供了激动人心的动力。

多模态检索的不同模式。我们通过以下方式执行多模态检索：使用 4M-21 预测给定输入（任意模态）的全局嵌入（此处显示为 DINOv2），并比较查询集和检索集嵌入之间的余弦距离。左图：从截然不同的查询模态（此处为 RGB、分割图、边缘、深度图、调色板和标题）检索 RGB 图像。中图：使用任何其他模态作为查询输入检索任意模态。每种查询模态对检索的限制不同，例如，此处 RGB 图像和标题查询总是会检索到新天鹅堡。相比之下，对于深度和语义查询，场景更加模糊，因此它们会检索具有相似特征的其他建筑物。右图：我们还可以组合任意模态子集来定义查询输入，例如表面法线和调色板，以便更好地控制检索。更多结果请参见 4.8.3 节。

开箱即用的视觉任务。给定一张 RGB 图像，4M-21 可以成功预测所有任务，这从它们与伪标签的高度一致性可以看出。更多结果请参见图 4.12。

开箱即用地比较 4M-21 XL、Unified-IO XL [211] 和 Unified-IO 2 XXL [209]。4M-21 XL 展现出对不同数据集和任务输入的强大泛化能力（开箱即用，零样本），显著提升了 Unified-IO 1 和 2 的性能。

针对 SAM 实例的不同标记化方案。我们比较了用于预训练的 SAM 实例标记化的不同标记化方案。详情请参阅 4.8.2 节。

我们使用提示链法在已建立的数据集上对多模态基础模型 (MFM) 进行基准测试。上图：MFM 在分类、目标检测、语义分割、分组、深度预测和表面法线预测方面的表现，并与专业的先进视觉模型进行了比较。下图：GPT-4o 对每项任务的预测。

目标检测算法。每一步，我们将图像划分成 3×3 的裁剪网格，并通过模型查询每个裁剪网格中是否存在目标物体（图中的绵羊）。没有物体的网格单元将被丢弃，并重复此过程，直到完全定位目标。我们首先使用较大的网格单元进行快速下采样，然后使用较细的网格单元进行更细粒度的预测。更多详细信息请参阅补充材料。（*实际题目摘要。请参阅补充材料中的完整题目。）

语义分割算法。我们将图像划分为超像素，并创建超像素的“多尺度金字塔”。然后，使用模型对金字塔进行顺序分类，以生成完整的分割图。多尺度金字塔由三层组成：超像素的裁剪图、裁剪图周围的上下文信息以及完整图像。在实践中，我们将多个超像素批量处理成序列，并对其进行联合分类。（*实际题目摘要。完整题目请参阅补充材料。）