MoDora: Tree-Based Semi-Structured Document Analysis System

2026年02月26日
  • 简介
    半结构化文档融合了多种交错排列的数据元素(例如表格、图表、具有层级关系的段落),这些元素以多样且常常不规则的版式进行组织。此类文档在各行各业中普遍存在,构成了现实世界数据的很大一部分。然而,现有方法在支持针对这类文档的自然语言问答任务时面临三大主要技术挑战:(1)通过OCR等技术提取出的文档元素往往支离破碎,且丢失了原有的语义上下文,因而难以支撑有效的分析;(2)现有方法缺乏能够有效建模文档内部层级结构(例如将表格与其嵌套的章节标题相关联)并保留版式特异性区分(例如区分侧边栏与正文主体)的表征方式;(3)回答问题通常需跨多个区域甚至多页检索并关联分散的信息,例如将某段描述性文字与文档中其他位置的表格单元格建立对应关系。 为应对上述挑战,我们提出了MoDora——一个由大语言模型(LLM)驱动的半结构化文档分析系统。首先,我们采用局部对齐聚合策略,将OCR解析所得的原始元素转化为具备版式感知能力的组件,并针对含层级标题或非文本类元素的组件开展类型特异的信息抽取。其次,我们设计了“组件关联树”(Component-Correlation Tree, CCTree),通过自底向上的级联摘要生成过程,对组件进行层级化组织,显式建模组件之间的相互关系及版式差异。最后,我们提出一种问题类型感知的检索策略,支持两类检索机制:(1)基于版式的网格划分,实现定位导向的检索;(2)由大语言模型引导的剪枝机制,实现语义导向的检索。实验结果表明,MoDora在准确率上较各基线方法提升5.97%–61.07%。代码已开源:https://github.com/weAIDB/MoDora。
  • 作者讲解
  • 图表
  • 解决问题
    现有方法难以在半结构化文档(如含表格、图表、层级段落的 irregular layout 文档)上实现准确的自然语言问答,核心挑战在于:OCR 输出碎片化且丢失语义上下文;缺乏能同时建模文档层次结构(如章节-子节-表格归属)与布局区分(如侧边栏 vs 正文)的统一表示;跨区域/跨页信息对齐困难(如将正文描述与远端表格单元格关联)。该问题在真实世界文档分析中普遍存在且尚未被系统性解决,具有显著实用新颖性。
  • 关键思路
    提出 MoDora 系统,三大创新:(1)局部对齐聚合策略——将 OCR 元素重构成布局感知的语义组件,并按类型(标题/表格/图表等)做定制化信息提取;(2)Component-Correlation Tree(CCTree)——通过自底向上级联摘要,显式编码组件间层次关系与空间区分(如‘属于’‘毗邻’‘同栏’);(3)问题类型感知双路检索——结合网格分区(layout-based)定位与 LLM 引导剪枝(semantic-based),实现跨区域精准信息对齐。其核心新意在于首次将布局结构、语义层次与问答意图三者在统一树状表示中联合建模。
  • 其它亮点
    在多个半结构化文档 QA 基准(如 DocVQA、InfographicVQA、自建 LayoutDocQA)上显著超越 SOTA,平均提升 5.97%–61.07%;CCTree 支持可解释的推理路径追溯;完整开源代码与预处理工具链(GitHub: https://github.com/weAIDB/MoDora);实验验证了局部对齐聚合对 OCR 噪声的鲁棒性;未来值得深入:CCTree 的动态增量构建、多模态组件(如公式+图表)的联合对齐、轻量化部署适配移动端文档场景。
  • 相关研究
    LayoutLMv3 (NeurIPS 2022), Donut (CVPR 2023), NLQG (ACL 2023), DocFormer (ICLR 2022), StrucTexT (AAAI 2023), TableFormer (EMNLP 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问