重新定义下一代 OCR：IBM 最新开源 Granite-docling-258M，实现端到端的「结构+内容」统一理解

作者：mumuu

编辑：李宝珠

转载请联系本公众号获得授权，并标明来源

IBM 开源多模态文档处理模型 Granite-Docling-258M，能将文档转换为机器可读格式，同时完整保留布局、表格、公式等元素，实现端到端的全文文档转换。

一直以来，将格式各异的数字文档准确转换为机器可读的结构化数据是一个技术核心挑战。文档布局的复杂多样性、以及其中包含的表格、图片等视觉元素，往往导致传统 OCR 系统的识别准确性难以满足实际需求。现有技术通常依赖于复杂的集成系统，将任务拆解为多个独立子模块，虽在一定程度上有效，但存在优化困难、难以泛化处理各类文档的局限性。

近期，IBM 开源轻量级多模态文档处理模型 Granite-Docling-258M，专为高效文档转换设计，能将文档转换为机器可读格式，同时完整保留布局、表格、公式等元素，实现端到端的全文文档转换。该模型使用 DocTags 格式精准描述文档结构，能与 Docling 库无缝集成，精准捕捉页面中所有元素的内容、结构和空间位置，提供强大的定制化和错误处理能力，适用企业级文档处理，是文档处理领域的强大工具。

此外该模型仅含 258M 参数，在图表识别、全页 OCR、代码识别等方面的性能评估中，均超过了前代的同级参数模型 SmolDocling-256M-Preview。在保持模型参数紧凑的同时，还支持多语言（包括阿拉伯语、中文和日语）处理，为 OCR 提供了最新轻量化、高性能的优化方案。

「Granite-docling-258M：轻量多模态文档处理模型」现已上线 HyperAI超神经官网（hyper.ai）的「教程」板块，快来一键部署体验！

教程链接：

https://go.hyper.ai/GLOwc

Demo 运行

1. 进入 hyper.ai 首页后，选择「教程」页面，并选择「Granite-docling-258M：轻量多模态文档处理模型」，点击「在线运行此教程」。

2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3. 选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像，并点击「继续执行」。OpenBayes 平台提供了 4 种计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI超神经专属邀请链接（直接复制到浏览器打开）：

https://openbayes.com/console/signup?r=Ada0322_NR0n