DLAFormer: An End-to-End Transformer For Document Layout Analysis

2024年05月20日
  • 简介
    文档布局分析(DLA)对于理解文档的物理布局和逻辑结构至关重要,可用于信息检索、文档摘要、知识提取等。然而,以往的研究通常使用单独的模型来处理DLA中的各个子任务,包括表格/图形检测、文本区域检测、逻辑角色分类和阅读顺序预测。本文提出了一种基于端到端Transformer的文档布局分析方法,称为DLAFormer,将所有这些子任务集成到一个单一模型中。为了实现这一点,我们将各种DLA子任务(如文本区域检测、逻辑角色分类和阅读顺序预测)视为关系预测问题,并将这些关系预测标签合并到一个统一的标签空间中,使一个统一的关系预测模块能够同时处理多个任务。此外,我们引入了一组新的类型查询来增强DETR中内容查询的物理含义。此外,我们采用了一种由粗到细的策略来准确识别图形页面对象。实验结果表明,我们提出的DLAFormer在两个文档布局分析基准测试DocLayNet和Comp-HRDoc上优于以前采用多分支或多阶段架构的方法。
  • 图表
  • 解决问题
    本论文旨在提出一种端到端的基于transformer的文档布局分析方法,称为DLAFormer,以解决文档布局分析中的多个子任务,包括表格/图像检测、文本区域检测、逻辑角色分类和阅读顺序预测。
  • 关键思路
    论文采用关系预测的方法将各种DLA子任务整合到一个统一的标签空间中,使统一的关系预测模块能够同时处理多个任务。此外,论文引入一组新颖的类型查询来增强DETR中内容查询的物理含义。同时,采用粗到细的策略来准确识别图形页面对象。
  • 其它亮点
    论文的实验结果表明,DLAFormer在两个文档布局分析基准数据集DocLayNet和Comp-HRDoc上优于以前采用多分支或多阶段架构进行多个任务的方法。此外,论文还开源了代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如TableNet、LayoutLM和DocBank等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论