- 简介我们推出了“千帆OCR”(Qianfan-OCR),这是一款参数量达40亿的端到端视觉—语言模型,首次在单一架构内统一实现了文档解析、版面分析与文档理解三大核心能力。该模型可直接将文档图像转换为结构清晰的Markdown格式,并支持多种基于提示词驱动的任务,包括表格提取、图表理解、文档问答以及关键信息抽取。针对端到端OCR模型普遍缺失显式版面分析能力的问题,我们提出了“版面即思维”(Layout-as-Thought)机制:当模型识别到特定的“思考令牌”(think tokens)时,将自动触发一个可选的推理阶段,先生成结构化的版面表征——包括各元素的边界框(bounding boxes)、元素类型(element types)及阅读顺序(reading order),再生成最终输出;此举不仅重建了模型对物理版面的感知与定位能力,还显著提升了其在复杂版式文档上的处理精度。在权威评测基准OmniDocBench v1.5与OlmOCR Bench上,“千帆OCR”分别以93.12分和79.8分的成绩位居所有端到端模型榜首;在OCRBench、CCOCR、DocVQA及ChartQA等主流评测中,其表现亦可媲美同规模通用视觉语言模型(VLMs);而在公开的关键信息抽取基准测试综合平均分上,更以领先优势超越Gemini-3.1-Pro、Seed-2.0及Qwen3-VL-235B等前沿大模型,位居第一。该模型已通过百度智能云千帆大模型平台向公众开放使用。
-
- 图表
- 解决问题传统端到端OCR模型(如图像直出文本/Markdown)常牺牲显式布局理解能力,导致在复杂文档(含多栏、嵌套表格、图文混排、非线性阅读序)上解析鲁棒性差;现有方案多依赖两阶段流水线(检测→识别→后处理),难以统一建模布局结构与语义理解。
- 关键思路提出'Layout-as-Thought'机制:通过可选的、由特殊think tokens触发的‘思维阶段’,让模型在生成最终Markdown前,自主推理并输出结构化布局表征(边界框+元素类型+阅读顺序),实现端到端框架内隐式布局 grounding 的显式化与可控化,兼顾效率与结构保真。
- 其它亮点在OmniDocBench v1.5(93.12)和OlmOCR Bench(79.8)上均位列端到端OCR模型第一;在DocVQA、ChartQA、CCOCR、OCRBench及多个公开KIE基准上全面超越同规模通用VLM(如Qwen3-VL-235B)及闭源强基线(Gemini-3.1-Pro、Seed-2.0);支持prompt-driven多任务(表格提取、图表问答、文档QA、关键信息抽取);模型已开源并上线百度千帆平台,支持API调用;实验覆盖跨领域真实文档分布,但未公开训练细节与推理时think token的动态调度策略,值得深入研究。
- Donut: Document Understanding Transformer without OCR (ICCV 2023); Pix2Struct: Screenshot Parsing with Vision-Language Models (ICML 2023); Nougat: Neural Optical Understanding for Academic Documents (arXiv 2023); KOSMOS-2.5: A Multimodal Foundation Model for Document Intelligence (ACL 2024); DocSAM: Segment Anything for Document Layout Analysis (CVPR 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流