Qianfan-OCR: A Unified End-to-End Model for Document Intelligence

2026年03月11日
  • 简介
    我们推出了“千帆OCR”(Qianfan-OCR),这是一款参数量达40亿的端到端视觉—语言模型,首次在单一架构内统一实现了文档解析、版面分析与文档理解三大核心能力。该模型可直接将文档图像转换为结构清晰的Markdown格式,并支持多种基于提示词驱动的任务,包括表格提取、图表理解、文档问答以及关键信息抽取。针对端到端OCR模型普遍缺失显式版面分析能力的问题,我们提出了“版面即思维”(Layout-as-Thought)机制:当模型识别到特定的“思考令牌”(think tokens)时,将自动触发一个可选的推理阶段,先生成结构化的版面表征——包括各元素的边界框(bounding boxes)、元素类型(element types)及阅读顺序(reading order),再生成最终输出;此举不仅重建了模型对物理版面的感知与定位能力,还显著提升了其在复杂版式文档上的处理精度。在权威评测基准OmniDocBench v1.5与OlmOCR Bench上,“千帆OCR”分别以93.12分和79.8分的成绩位居所有端到端模型榜首;在OCRBench、CCOCR、DocVQA及ChartQA等主流评测中,其表现亦可媲美同规模通用视觉语言模型(VLMs);而在公开的关键信息抽取基准测试综合平均分上,更以领先优势超越Gemini-3.1-Pro、Seed-2.0及Qwen3-VL-235B等前沿大模型,位居第一。该模型已通过百度智能云千帆大模型平台向公众开放使用。
  • 作者讲解
  • 图表
  • 解决问题
    传统端到端OCR模型(如图像直出文本/Markdown)常牺牲显式布局理解能力,导致在复杂文档(含多栏、嵌套表格、图文混排、非线性阅读序)上解析鲁棒性差;现有方案多依赖两阶段流水线(检测→识别→后处理),难以统一建模布局结构与语义理解。
  • 关键思路
    提出'Layout-as-Thought'机制:通过可选的、由特殊think tokens触发的‘思维阶段’,让模型在生成最终Markdown前,自主推理并输出结构化布局表征(边界框+元素类型+阅读顺序),实现端到端框架内隐式布局 grounding 的显式化与可控化,兼顾效率与结构保真。
  • 其它亮点
    在OmniDocBench v1.5(93.12)和OlmOCR Bench(79.8)上均位列端到端OCR模型第一;在DocVQA、ChartQA、CCOCR、OCRBench及多个公开KIE基准上全面超越同规模通用VLM(如Qwen3-VL-235B)及闭源强基线(Gemini-3.1-Pro、Seed-2.0);支持prompt-driven多任务(表格提取、图表问答、文档QA、关键信息抽取);模型已开源并上线百度千帆平台,支持API调用;实验覆盖跨领域真实文档分布,但未公开训练细节与推理时think token的动态调度策略,值得深入研究。
  • 相关研究
    Donut: Document Understanding Transformer without OCR (ICCV 2023); Pix2Struct: Screenshot Parsing with Vision-Language Models (ICML 2023); Nougat: Neural Optical Understanding for Academic Documents (arXiv 2023); KOSMOS-2.5: A Multimodal Foundation Model for Document Intelligence (ACL 2024); DocSAM: Segment Anything for Document Layout Analysis (CVPR 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问