Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

向作者提问

NEW

简介

我们推出了“千帆OCR”（Qianfan-OCR），这是一款参数量达40亿的端到端视觉—语言模型，首次在单一架构内统一实现了文档解析、版面分析与文档理解三大核心能力。该模型可直接将文档图像转换为结构清晰的Markdown格式，并支持多种基于提示词驱动的任务，包括表格提取、图表理解、文档问答以及关键信息抽取。针对端到端OCR模型普遍缺失显式版面分析能力的问题，我们提出了“版面即思维”（Layout-as-Thought）机制：当模型识别到特定的“思考令牌”（think tokens）时，将自动触发一个可选的推理阶段，先生成结构化的版面表征——包括各元素的边界框（bounding boxes）、元素类型（element types）及阅读顺序（reading order），再生成最终输出；此举不仅重建了模型对物理版面的感知与定位能力，还显著提升了其在复杂版式文档上的处理精度。在权威评测基准OmniDocBench v1.5与OlmOCR Bench上，“千帆OCR”分别以93.12分和79.8分的成绩位居所有端到端模型榜首；在OCRBench、CCOCR、DocVQA及ChartQA等主流评测中，其表现亦可媲美同规模通用视觉语言模型（VLMs）；而在公开的关键信息抽取基准测试综合平均分上，更以领先优势超越Gemini-3.1-Pro、Seed-2.0及Qwen3-VL-235B等前沿大模型，位居第一。该模型已通过百度智能云千帆大模型平台向公众开放使用。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统端到端OCR模型（如图像直出文本/Markdown）常牺牲显式布局理解能力，导致在复杂文档（含多栏、嵌套表格、图文混排、非线性阅读序）上解析鲁棒性差；现有方案多依赖两阶段流水线（检测→识别→后处理），难以统一建模布局结构与语义理解。
关键思路

提出'Layout-as-Thought'机制：通过可选的、由特殊think tokens触发的‘思维阶段’，让模型在生成最终Markdown前，自主推理并输出结构化布局表征（边界框+元素类型+阅读顺序），实现端到端框架内隐式布局 grounding 的显式化与可控化，兼顾效率与结构保真。
其它亮点

在OmniDocBench v1.5（93.12）和OlmOCR Bench（79.8）上均位列端到端OCR模型第一；在DocVQA、ChartQA、CCOCR、OCRBench及多个公开KIE基准上全面超越同规模通用VLM（如Qwen3-VL-235B）及闭源强基线（Gemini-3.1-Pro、Seed-2.0）；支持prompt-driven多任务（表格提取、图表问答、文档QA、关键信息抽取）；模型已开源并上线百度千帆平台，支持API调用；实验覆盖跨领域真实文档分布，但未公开训练细节与推理时think token的动态调度策略，值得深入研究。
相关研究

Donut: Document Understanding Transformer without OCR (ICCV 2023); Pix2Struct: Screenshot Parsing with Vision-Language Models (ICML 2023); Nougat: Neural Optical Understanding for Academic Documents (arXiv 2023); KOSMOS-2.5: A Multimodal Foundation Model for Document Intelligence (ACL 2024); DocSAM: Segment Anything for Document Layout Analysis (CVPR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问