阿里国际正式发布新一代多模态大模型Ovis2.5。Ovis2.5 是一款面向原生分辨率视觉感知、深度推理与高性价比场景设计的多模态大模型。在主流多模态评测套件 OpenCompass 上的综合得分相较 Ovis2 进一步提升,并在同类开源模型中继续保持 SOTA 水平。此外,凭借原生分辨率视觉感知与反思式思维能力的协同升级,在小模型尺寸下实现了性能与效率的双重突破。无论是在通用多模态基准,还是在复杂图表理解与 OCR 等实际应用场景,Ovis2.5 均展现出领先的理解与推理能力。
本次开源包含两个版本:
Ovis2.5-9B:OpenCompass综合得分 78.3,超越众多更大参数量的模型,在40B以下参数规模的开源模型中排名第一。 Ovis2.5-2B:OpenCompass综合得分73.9,延续了Ovis系列“小身板,大能量”的理念,在同尺寸模型中性能显著领先,是端侧和资源受限场景的理想选择。

Ovis2.5-9B在多个benchmark上取得了同尺寸开源最佳性能,Ovis2.5-2B也表现优异
代码:https://github.com/AIDC-AI/Ovis
模型:
https://huggingface.co/AIDC-AI/Ovis2.5-2B
https://huggingface.co/AIDC-AI/Ovis2.5-9B
Demo:
https://huggingface.co/spaces/AIDC-AI/Ovis2.5-2B https://huggingface.co/spaces/AIDC-AI/Ovis2.5-9B
技术报告: https://arxiv.org/abs/2508.11737
Ovis2.5 的性能提升,来自于原生分辨率视觉感知、深度推理机制与复杂图表理解三方面的系统性突破。
在 Ovis2 及早期版本中,高分辨率图片需要通过“切图-拼接”处理,这往往导致整体结构与细节信息的损失,尤其在图表、文档和精细场景中表现尤为明显。
为解决这一问题,Ovis2.5 集成了动态分辨率视觉编码器(NaViT),能够直接处理任意原生分辨率的图像,让模型真正做到“完整看图”。无论是宏观布局还是微小文字细节,都能精准捕捉,为复杂场景下的深度推理奠定坚实基础。
为提升深度推理能力,Ovis2.5 融入了包含自我检查与修正环节的长链思考训练,使模型能够在解决问题时进行自我反思。
在推理时,用户可以选择开启「思考模式」:模型会生成中间步骤,主动检视并修正推理过程,从而在数学、复杂图表等高难度任务中获得更高的准确率。这一机制提供了延迟与精度的灵活权衡,用户可根据需求自由切换。
复杂图表理解一直是多模态领域的“硬骨头”,大量噪声和密集的视觉信息给模型带来了巨大挑战。Ovis2.5针对这一痛点,从三个层面进行了系统性增强:
数据端:新增了海量高质量的图表、OCR、Grounding数据。
视觉端:利用原生分辨率编码器,准确全面地理解图表中的元素。
推理端:结合深度思考能力,对图表中的数据和逻辑关系进行精准分析。
Ovis2.5 在复杂图表理解这一长期难题上取得了突破,达到开源领先水平。

Ovis2.5整体框架
Ovis2.5 的卓越表现并非偶然,而是来自架构、训练与数据三方面的系统性创新。
模型架构:延续 Ovis 系列创新的结构化嵌入对齐设计。Ovis2.5 由三大组件构成:动态分辨率 ViT 高效提取视觉特征,Ovis 视觉词表模块实现视觉与文本嵌入的结构对齐,最后由强大的 Qwen3 作为语言基座,处理多模态嵌入并生成文本输出。
训练策略:采用更精细的五阶段训练范式,从基础的视觉预训练、多模态预训练、大规模指令微调,到利用DPO和GRPO等算法进行偏好对齐和推理能力强化,循序渐进构建模型能力。同时,通过多模态数据打包和混合并行等优化,实现了3-4倍的端到端训练加速。
数据工程:Ovis2.5的数据规模相比Ovis2增加了50%,重点聚焦视觉推理、图表、OCR、Grounding等关键方向。尤其是合成了大量与Qwen3深度适配的“思考(thinking)”数据,有效激发了模型的反思与推理潜能。
Ovis2.5-9B和Ovis2.5-2B在主流多模态评测套件 OpenCompass 上均取得了同等尺寸模型的最优性能:


同时,Ovis2.5-9B在多个数学和科学推理、OCR和图表分析等基准测试上也展现出优异表现:


Case展示
Image

Prompt
这是哪里?哪首诗与其相关?
Response
与其相关的诗歌
西湖自古就是文人墨客吟咏的对象,其中最贴合“荷塘盛景”的经典诗句,来自南宋诗人杨万里的《晓出净慈寺送林子方》:
接天莲叶无穷碧,映日荷花别样红
这首诗以“接天莲叶”“映日荷花”精准描绘了西湖夏日荷塘的繁茂与绚烂,与照片中“满池荷叶、点缀荷花”的景象高度契合。
此外,北宋文学家苏轼的《饮湖上初晴后雨》也常被用来赞美西湖之美:
欲把西湖比西子,淡妆浓抹总相宜
虽未直接聚焦“荷塘”,但整体意象(西湖如美人、景致秀丽)也与西湖的诗意气质相通。
这些诗歌让西湖的自然风物与文化意蕴交织,成为中华诗词中最具代表性的意象之一。

Prompt
提取货款费用、快递内容、追踪号、详细发货人地址、详细收货人地址,并以JSON格式返回
Response
<think>...</think>
{
"货款费用": "110元",
"快递内容": "重要文件83",
"追踪号": "1390670676823",
"发货人地址": "北京市朝阳区光华路50号",
"收货人地址": "浙江省杭州市余杭区阿里巴巴西溪园区C1小邮局"
}
Case 3:Capability 图表

Prompt
在“教育和健康服务”类别中,教育部分所占的百分比是多少?
Response


Prompt
求解此题。
Response

(备注:图中红框用于可视化模型输出,并非原始输入图像的一部分)
Prompt
定位飞机,输出坐标。
Response
本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号
https://hf.link/tougao
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢