GLM-OCR Technical Report - 智源社区论文

向作者提问

NEW

简介

GLM-OCR 是一款高效、参数量仅为 0.9B 的轻量化多模态模型，专为真实场景下的文档理解任务而设计。该模型融合了参数量为 0.4B 的 CogViT 视觉编码器与参数量为 0.5B 的 GLM 语言解码器，在计算效率与识别性能之间实现了优异的平衡。针对标准自回归解码方式在确定性 OCR 任务中效率低下的问题，GLM-OCR 创新性地引入了“多令牌预测”（Multi-Token Prediction, MTP）机制：每一步解码可同时预测多个文本令牌，在显著提升解码吞吐量的同时，通过参数共享将内存开销控制在较低水平。在系统架构层面，采用两阶段处理流程：首先由 PP-DocLayout-V3 完成文档版面分析，再对各版面区域并行开展识别。在多项公开基准数据集及工业实际场景中的大规模评测结果表明，GLM-OCR 在文档解析、文字与公式转录、表格结构恢复以及关键信息抽取等任务上均达到具有竞争力的性能，部分指标甚至位居当前最优水平。凭借其紧凑的模型结构与结构化生成能力，该模型既适用于资源受限的边缘端部署，也能够支撑大规模生产环境下的高效应用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统OCR系统在真实文档理解任务中面临计算效率低、解码吞吐量瓶颈（尤其在确定性文本识别场景下）、模型体积大难以边缘部署等问题；现有端到端多模态文档理解模型往往在精度与效率间难以兼顾，缺乏针对文档结构化输出与硬件友好推理的协同设计。
关键思路

提出GLM-OCR：一个0.9B参数的紧凑型多模态模型，核心创新包括（1）Multi-Token Prediction（MTP）机制——在单步解码中并行预测多个token，显著提升吞吐且共享参数控制内存开销；（2）两阶段系统级协同设计：PP-DocLayout-V3布局分析 + 并行区域级MTP识别，解耦结构理解与内容生成；（3）轻量CogViT视觉编码器（0.4B）与高效GLM语言解码器（0.5B）的定制化融合，兼顾视觉感知能力与结构化文本生成能力。
其它亮点

在PubLayNet、DocBank、CORD、SciTSR、FormulaGraph等8个主流基准及工业文档数据集上全面验证，覆盖布局分析、OCR、公式识别、表格重建、关键信息抽取五大任务；相比同性能模型（如Donut、UDOP、Pix2Struct），推理速度提升2.3×，显存占用降低37%；已开源模型权重与推理代码（Zhiyuan-OpenSource/GLM-OCR）；MTP机制可迁移至其他结构化生成任务；未来方向包括动态token数预测、跨区域布局约束建模、零样本泛化增强。
相关研究

Donut: Document Understanding Transformer without OCR (ICCV 2023)；UDOP: Unified Document Processing with Vision-Language Modeling (ACL 2023)；Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding (ICML 2023)；LayoutLMv3: Multi-modal Pre-training for Visually-Rich Document Understanding (ACL 2022)；PPOCR: Practical Pipeline for OCR (OpenMMLab, 2021–2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问