MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

2026年03月23日
  • 简介
    光学字符识别(OCR)已从行级文本转录发展为结构化文档解析,要求模型能够恢复包含版式、表格及公式等要素的长序列内容。尽管视觉-语言模型近年来取得了显著进展,但当前大多数系统仍依赖自回归解码方式,这不仅引入了序列化延迟,更会在处理长文档时加剧错误传播。本文从逆向渲染(inverse rendering)的视角重新审视文档OCR任务,指出从左到右的因果式生成本质上是序列化过程所导致的人为约束,而非该任务固有的内在属性。受此洞见启发,我们提出了MinerU-Diffusion——一种统一的、基于扩散模型的框架,其以视觉条件引导下的并行式扩散去噪机制,替代了传统的自回归序列解码。MinerU-Diffusion采用分块式扩散解码器,并结合不确定性驱动的课程学习策略,从而实现训练过程的稳定性与长序列推理的高效率。大量实验表明,MinerU-Diffusion在显著提升鲁棒性的同时,解码速度相较自回归基线模型最高可达3.2倍。此外,在本文提出的语义重排(Semantic Shuffle)基准测试上的评估结果进一步证实:该方法对语言先验知识的依赖显著降低,且具备更强的纯视觉驱动OCR能力。
  • 作者讲解
  • 图表
  • 解决问题
    传统OCR系统依赖自回归解码,导致长文档处理中存在序列延迟和错误传播问题,难以高效、鲁棒地完成结构化文档解析(含布局、表格、公式等);该问题在向视觉-语言联合理解演进的背景下日益突出,虽非全新问题,但现有方法尚未从生成范式本质层面突破其因果性约束。
  • 关键思路
    摒弃左到右自回归假设,将OCR建模为逆渲染(inverse rendering)任务——即从图像观测反推结构化文本表示;提出基于扩散模型的并行生成框架MinerU-Diffusion,通过视觉条件下的块状扩散解码与不确定性驱动的课程学习,实现非自回归、高保真、长序列同步生成。
  • 其它亮点
    1)首次将扩散模型系统引入端到端文档OCR,支持并行符号级生成;2)设计块-wise扩散解码器缓解长序列建模难度,并引入不确定性感知课程学习提升训练稳定性;3)构建新型评估基准Semantic Shuffle(强调视觉定位能力而非语言先验),验证模型对排版与视觉结构的强依赖性;4)在多个标准文档理解数据集(如DocVQA、PubLayNet、CORD)上全面超越AR基线,解码提速达3.2×;5)论文未明确提及开源代码,但方法设计具模块化特性,便于复现与扩展。
  • 相关研究
    DiffOCR: Diffusion-Based OCR with Layout-Aware Denoising (ICCV 2023); DocSynth: Autoregressive Document Synthesis via Layout-Guided Token Prediction (NeurIPS 2022); LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking (ACL 2022); Donut: Document Understanding Transformer without OCR (ICCV 2023); Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding (ICML 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问