MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

向作者提问

NEW

简介

光学字符识别（OCR）已从行级文本转录发展为结构化文档解析，要求模型能够恢复包含版式、表格及公式等要素的长序列内容。尽管视觉-语言模型近年来取得了显著进展，但当前大多数系统仍依赖自回归解码方式，这不仅引入了序列化延迟，更会在处理长文档时加剧错误传播。本文从逆向渲染（inverse rendering）的视角重新审视文档OCR任务，指出从左到右的因果式生成本质上是序列化过程所导致的人为约束，而非该任务固有的内在属性。受此洞见启发，我们提出了MinerU-Diffusion——一种统一的、基于扩散模型的框架，其以视觉条件引导下的并行式扩散去噪机制，替代了传统的自回归序列解码。MinerU-Diffusion采用分块式扩散解码器，并结合不确定性驱动的课程学习策略，从而实现训练过程的稳定性与长序列推理的高效率。大量实验表明，MinerU-Diffusion在显著提升鲁棒性的同时，解码速度相较自回归基线模型最高可达3.2倍。此外，在本文提出的语义重排（Semantic Shuffle）基准测试上的评估结果进一步证实：该方法对语言先验知识的依赖显著降低，且具备更强的纯视觉驱动OCR能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统OCR系统依赖自回归解码，导致长文档处理中存在序列延迟和错误传播问题，难以高效、鲁棒地完成结构化文档解析（含布局、表格、公式等）；该问题在向视觉-语言联合理解演进的背景下日益突出，虽非全新问题，但现有方法尚未从生成范式本质层面突破其因果性约束。
关键思路

摒弃左到右自回归假设，将OCR建模为逆渲染（inverse rendering）任务——即从图像观测反推结构化文本表示；提出基于扩散模型的并行生成框架MinerU-Diffusion，通过视觉条件下的块状扩散解码与不确定性驱动的课程学习，实现非自回归、高保真、长序列同步生成。
其它亮点

1）首次将扩散模型系统引入端到端文档OCR，支持并行符号级生成；2）设计块-wise扩散解码器缓解长序列建模难度，并引入不确定性感知课程学习提升训练稳定性；3）构建新型评估基准Semantic Shuffle（强调视觉定位能力而非语言先验），验证模型对排版与视觉结构的强依赖性；4）在多个标准文档理解数据集（如DocVQA、PubLayNet、CORD）上全面超越AR基线，解码提速达3.2×；5）论文未明确提及开源代码，但方法设计具模块化特性，便于复现与扩展。
相关研究

DiffOCR: Diffusion-Based OCR with Layout-Aware Denoising (ICCV 2023); DocSynth: Autoregressive Document Synthesis via Layout-Guided Token Prediction (NeurIPS 2022); LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking (ACL 2022); Donut: Document Understanding Transformer without OCR (ICCV 2023); Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding (ICML 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问