Image

驱动科学研究的人工智能正逐渐改变科学研究的模式,在探索以通专融合实现通用人工智能 (AGI) 的进程中,通用基座大模型,尤其是具备跨模态理解能力的多模态大模型至关重要——多模态大模型的创新突破,将大幅提升模型同时处理文本、图像、视频等数据的能力,从而为科研创新提供基础性支撑。


2025 年 4 月 16 日,上海人工智能实验室 (上海AI实验室) 升级并开源了通用多模态大模型书生·万象 3.0 (InternVL3)。通过采用创新的多模态预训练和后训练方法,InternVL3 多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10 亿~780 亿参数的 全量级版本在开源模型中性能均位列第一,同时大幅提升了图形用户界面 (GUI) 智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

• 在专家级多学科领域知识推理基准测试 MMMU 中再次突破开源模型极限,取得 72.2 分;


• 基于司南 OpenCompass 开源评测框架,研究团队对 InternVL3 进行了全面系统的评估,包括多学科推理、文档理解、多图像 / 视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力以及以语言为中心的基准测试。评测结果显示,InternVL3 在开源多模态大模型中性能表现最优创造了开源多模态大模型的性能新标杆,性能接近闭源模型 Gemini-2.5-Pro;


• 创新提出原生多模态预训练方法,将语言和多模态学习整合于同一个预训练阶段,提升及拓展多模态能力的同时,进一步提升纯语言能力;


• 提出混合偏优化算法以及多模态测试阶段增强,通过负监督修正模型响应分布,大幅提升模型推理能力。
Image
技术报告链接:
https://hf.co/papers/2504.10479
代码开源/模型使用方法:
https://github.com/OpenGVLab/InternVL
模型地址:
https://hf.co/OpenGVLab/InternVL3-78B
公测版本:
https://chat.intern-ai.org.cn/
Image



创新的多模态预训练方法


上海AI实验室研究团队提出了一种创新的原生多模态预训练方法,与传统的先优化大语言模型再添加视觉能力的方法不同,这种方法在模型的预训练阶段将文本数据与多模态数据无缝结合,让模型能够同时学习语言和视觉,从而能够同时处理文本和多模态输入。由于在预训练阶段对文本和多模态数据给予同等的重视,模型能够自然地获得多模态能力,而无需依赖从独立训练的大语言模型中进行大量的特征对齐。此外,该训练策略可使模型的文本能力和多模态能力同时得到提升。
由于预训练数据的内在复杂性,确定合适的采样策略是一项具有挑战性的任务。为了解决这一问题,研究团队首先分别独立训练多模态数据集和纯语言数据集,并在各自的基准测试上评估它们的性能。这一步骤的目的是确定每个模态内子类别中的最佳采样比例。在达到局部最优后,研发团队再将两种模态的数据结合起来,并在相同的总训练预算下确定它们的相对采样比例。实证结果表明,纯语言数据与多模态数据的比例为 1:3 时,在语言和多模态基准测试中都能产生最佳性能。


高效的多模态后训练策略


在完成原生多模态预训练之后,研究团队采用了监督微调 (Supervised Fine-Tuning, SFT)、混合偏好优化 (Mixed Preference Optimization, MPO)、测试时间缩放 (Test-Time Scaling, TTS) 等后训练方案进一步提升了模型的多模态对话和推理能力。

监督微调

在监督微调阶段, InternVL3 沿袭了 InternVL2.5 中提出的随机图像压缩、平方损失重加权和多模态数据拼接等技术。与 InternVL2.5 相比,InternVL3 在监督微调阶段使用了更高质量且更多样化的训练数据,研究团队进一步扩充了工具使用、三维场景理解、图形用户界面操作、长上下文任务、视频理解、科学图表、创意写作以及多模态推理等方面的训练样本。


混合偏好优化

在预训练和监督微调阶段,模型被训练基于先前的正确单词来预测下一个单词。然而在推理过程中,模型是基于其自身之前的输出来预测下一个单词。训练与推理阶段中单词的真实分布和模型预测分布之间存在差异,这将引入分布偏移,进而削弱模型的长序列输出以及思维链 (CoT) 推理能力。为了缓解这个问题,研究团队采用了混合偏好优化 (MPO) 方法,通过引入来自正样本和负样本的额外监督,帮助模型修剪自身分布,以使模型的预测分布和真实分布进一步对齐,从而减少分布偏移、提高模型推理性能。


多模态测试时增强 (Test-Time Scaling)

测试时增强已被证明是增强 LLMs 和 MLLM 推理能力的有效方法。在 InternVL3 中,研究团队采用 Best-of-N 评估策略,并使用 VisualPRM-8B 作为评估模型,以选择最佳的响应进行推理和数学评估。




特色多模态能力


同时,除了可以处理通用的多模态任务之外,InternVL3 还拓展了多方面的多模态能力,如,图形用户界面 (GUI) 智能体、建筑场景图纸理解、空间感知推理、通识学科推理等。

GUI智能体

在 GUI 定位基准测试中,与最先进的通用多模态大模型和特定于 GUI 的大模型进行了对比,InternVL3 取得了极具竞争力的性能。可作为GUI 智能体,遵循指令去操作电脑或者手机上的专业软件。
Image
Grouding坐标图上展示如下:
Image

建筑场景图纸理解

在建筑场景图纸理解的任务中,InternVL3 可根据指令识别建筑图纸中的门窗、楼梯等构件,并定位构件的位置,后续可进一步扩展至对建筑领域图纸审查、统计核验等任务。
Image
Grouding 坐标图上展示如下:
Image


空间感知推理

在空间感知与推理方面,InternVL3 在现有的测试集上取得了最优表现,表明其在仅依赖视觉输入的条件下,具备较强的空间推理与理解能力。这一能力对于后续在机器人、自动驾驶等任务中的应用具有重要意义。


给模型看一个视频并提问:

These are frames of a video.

You are a robot beginning at the doorframe and facing the tv. You want to navigate to the sofa. You will perform the following actions (Note: for each [please fill in], choose either 'turn back,' 'turn left,' or 'turn right.'): 1. Go forward until the tv 2. [please fill in] 3. Go forward until the sofa. You have reached the final destination.

A. Turn Left

B. Turn Back

C. Turn Right

Answer with the option's letter from the given choices directly.

模型很好地理解了空间方位,并做出了正确的选择:C!





本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号: 



如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao


内容中包含的图片若涉及版权问题,请及时与我们联系删除