- 简介GLM-OCR 是一款高效、参数量仅为 0.9B 的轻量化多模态模型,专为真实场景下的文档理解任务而设计。该模型融合了参数量为 0.4B 的 CogViT 视觉编码器与参数量为 0.5B 的 GLM 语言解码器,在计算效率与识别性能之间实现了优异的平衡。针对标准自回归解码方式在确定性 OCR 任务中效率低下的问题,GLM-OCR 创新性地引入了“多令牌预测”(Multi-Token Prediction, MTP)机制:每一步解码可同时预测多个文本令牌,在显著提升解码吞吐量的同时,通过参数共享将内存开销控制在较低水平。在系统架构层面,采用两阶段处理流程:首先由 PP-DocLayout-V3 完成文档版面分析,再对各版面区域并行开展识别。在多项公开基准数据集及工业实际场景中的大规模评测结果表明,GLM-OCR 在文档解析、文字与公式转录、表格结构恢复以及关键信息抽取等任务上均达到具有竞争力的性能,部分指标甚至位居当前最优水平。凭借其紧凑的模型结构与结构化生成能力,该模型既适用于资源受限的边缘端部署,也能够支撑大规模生产环境下的高效应用。
-
- 图表
- 解决问题传统OCR系统在真实文档理解任务中面临计算效率低、解码吞吐量瓶颈(尤其在确定性文本识别场景下)、模型体积大难以边缘部署等问题;现有端到端多模态文档理解模型往往在精度与效率间难以兼顾,缺乏针对文档结构化输出与硬件友好推理的协同设计。
- 关键思路提出GLM-OCR:一个0.9B参数的紧凑型多模态模型,核心创新包括(1)Multi-Token Prediction(MTP)机制——在单步解码中并行预测多个token,显著提升吞吐且共享参数控制内存开销;(2)两阶段系统级协同设计:PP-DocLayout-V3布局分析 + 并行区域级MTP识别,解耦结构理解与内容生成;(3)轻量CogViT视觉编码器(0.4B)与高效GLM语言解码器(0.5B)的定制化融合,兼顾视觉感知能力与结构化文本生成能力。
- 其它亮点在PubLayNet、DocBank、CORD、SciTSR、FormulaGraph等8个主流基准及工业文档数据集上全面验证,覆盖布局分析、OCR、公式识别、表格重建、关键信息抽取五大任务;相比同性能模型(如Donut、UDOP、Pix2Struct),推理速度提升2.3×,显存占用降低37%;已开源模型权重与推理代码(Zhiyuan-OpenSource/GLM-OCR);MTP机制可迁移至其他结构化生成任务;未来方向包括动态token数预测、跨区域布局约束建模、零样本泛化增强。
- Donut: Document Understanding Transformer without OCR (ICCV 2023);UDOP: Unified Document Processing with Vision-Language Modeling (ACL 2023);Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding (ICML 2023);LayoutLMv3: Multi-modal Pre-training for Visually-Rich Document Understanding (ACL 2022);PPOCR: Practical Pipeline for OCR (OpenMMLab, 2021–2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流