ParseBench: A Document Parsing Benchmark for AI Agents

向作者提问

NEW

简介

人工智能代理正在改变文档解析的需求。关键在于语义正确性：解析结果必须完整保留支撑自主决策所需的结构与语义信息，包括准确的表格结构、精确的图表数据、具有语义意义的格式化信息，以及与视觉内容的严格对齐（即“视觉锚定”）。现有基准测试未能全面反映企业自动化场景下的这一需求：它们所依赖的文档分布范围过窄，且仅采用文本相似度指标进行评估，因而无法有效识别对AI代理至关重要的各类失败情形。为此，我们提出ParseBench——一个面向企业级文档的新型基准测试集，涵盖保险、金融与政府三大领域，共包含约2000页经人工严格校验的文档页面；该基准围绕五大核心能力维度构建：表格解析、图表解析、内容保真度、语义化格式识别以及视觉锚定。在涵盖14种方法（包括多模态大模型、专用文档解析器及LlamaParse）的系统性评测中，ParseBench揭示出当前技术能力呈现显著碎片化特征：尚无任何一种方法能在全部五个维度上持续保持优异表现。其中，LlamaParse Agentic以84.9%的综合得分位居榜首；同时，该基准也清晰凸显了现有各类系统在关键能力上仍存在的明显短板。本数据集及配套评测代码已开源，可分别通过以下链接获取：https://huggingface.co/datasets/llamaindex/ParseBench 和 https://github.com/run-llama/ParseBench。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有文档解析基准（如DocBank、PubLayNet）过度依赖OCR文本相似性（如BLEU、ROUGE）和窄域文档分布，无法有效评估AI代理在企业自动化场景中所需的语义正确性——即对表格结构、图表数据、语义格式、视觉 grounding 等维度的忠实还原能力；这是一个新问题：首次系统定义并量化‘代理就绪型文档解析’（agent-ready parsing）的核心能力维度。
关键思路

提出ParseBench——首个面向AI代理决策需求的多维语义解析基准，摒弃纯文本匹配，转而采用5个正交、人工验证的能力维度（表格、图表、内容保真、语义格式、视觉 grounding），每维均基于人类标注的结构化真值进行细粒度功能评测；关键创新在于将文档解析从‘文本重建任务’重新定位为‘代理感知接口任务’。
其它亮点

• 构建~2,000页真实企业文档（保险单、财报、政府公文），全部经人工逐页验证；• 在14种主流方法（含GPT-4o、Donut、LayoutParser、Nougat、LlamaParse基础版与Agentic版）上完成全维度评测；• LlamaParse Agentic以84.9%综合得分领先，但各方法在不同维度表现剧烈波动（如图表解析平均仅52.3%，暴露严重短板）；• 全套数据集（Hugging Face）、评测代码（GitHub）、详细评分协议完全开源；• 重要发现：当前SOTA模型在‘视觉 grounding’（如图文对齐定位）和‘语义格式’（如标题层级/强调意图）上存在系统性薄弱，亟需结构感知训练目标和多模态对齐监督。
相关研究

• 'DocBank: A Benchmark Dataset for Document Layout Analysis' (ICDAR 2021); • 'Nougat: Neural Optical Understanding for Academic Documents' (arXiv 2023); • 'LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking' (ACL 2022); • 'GritNet: Grounded Reasoning in Text-based Agents' (NeurIPS 2023 Workshop); • 'ChartQA: A Benchmark for Chart Question Answering' (EMNLP 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问