- 简介人工智能代理正在改变文档解析的需求。关键在于语义正确性:解析结果必须完整保留支撑自主决策所需的结构与语义信息,包括准确的表格结构、精确的图表数据、具有语义意义的格式化信息,以及与视觉内容的严格对齐(即“视觉锚定”)。现有基准测试未能全面反映企业自动化场景下的这一需求:它们所依赖的文档分布范围过窄,且仅采用文本相似度指标进行评估,因而无法有效识别对AI代理至关重要的各类失败情形。为此,我们提出ParseBench——一个面向企业级文档的新型基准测试集,涵盖保险、金融与政府三大领域,共包含约2000页经人工严格校验的文档页面;该基准围绕五大核心能力维度构建:表格解析、图表解析、内容保真度、语义化格式识别以及视觉锚定。在涵盖14种方法(包括多模态大模型、专用文档解析器及LlamaParse)的系统性评测中,ParseBench揭示出当前技术能力呈现显著碎片化特征:尚无任何一种方法能在全部五个维度上持续保持优异表现。其中,LlamaParse Agentic以84.9%的综合得分位居榜首;同时,该基准也清晰凸显了现有各类系统在关键能力上仍存在的明显短板。本数据集及配套评测代码已开源,可分别通过以下链接获取:https://huggingface.co/datasets/llamaindex/ParseBench 和 https://github.com/run-llama/ParseBench。
-
- 图表
- 解决问题现有文档解析基准(如DocBank、PubLayNet)过度依赖OCR文本相似性(如BLEU、ROUGE)和窄域文档分布,无法有效评估AI代理在企业自动化场景中所需的语义正确性——即对表格结构、图表数据、语义格式、视觉 grounding 等维度的忠实还原能力;这是一个新问题:首次系统定义并量化‘代理就绪型文档解析’(agent-ready parsing)的核心能力维度。
- 关键思路提出ParseBench——首个面向AI代理决策需求的多维语义解析基准,摒弃纯文本匹配,转而采用5个正交、人工验证的能力维度(表格、图表、内容保真、语义格式、视觉 grounding),每维均基于人类标注的结构化真值进行细粒度功能评测;关键创新在于将文档解析从‘文本重建任务’重新定位为‘代理感知接口任务’。
- 其它亮点• 构建~2,000页真实企业文档(保险单、财报、政府公文),全部经人工逐页验证;• 在14种主流方法(含GPT-4o、Donut、LayoutParser、Nougat、LlamaParse基础版与Agentic版)上完成全维度评测;• LlamaParse Agentic以84.9%综合得分领先,但各方法在不同维度表现剧烈波动(如图表解析平均仅52.3%,暴露严重短板);• 全套数据集(Hugging Face)、评测代码(GitHub)、详细评分协议完全开源;• 重要发现:当前SOTA模型在‘视觉 grounding’(如图文对齐定位)和‘语义格式’(如标题层级/强调意图)上存在系统性薄弱,亟需结构感知训练目标和多模态对齐监督。
- • 'DocBank: A Benchmark Dataset for Document Layout Analysis' (ICDAR 2021); • 'Nougat: Neural Optical Understanding for Academic Documents' (arXiv 2023); • 'LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking' (ACL 2022); • 'GritNet: Grounded Reasoning in Text-based Agents' (NeurIPS 2023 Workshop); • 'ChartQA: A Benchmark for Chart Question Answering' (EMNLP 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流