- 简介文档布局分析涉及理解文档中元素的排列方式。本文介绍了一种方法来解决理解文档图像中各种元素(如文本、图像、表格和标题)的复杂性。该方法采用了一种基于Transformer的先进图形页面对象检测器作为创新性的对象检测器,用于识别表格、图形和显示元素。我们引入了一个查询编码机制,为对比学习提供高质量的对象查询,从而增强了解码器阶段的效率。我们还提出了一种混合匹配方案,将解码器的原始一对一匹配策略与训练阶段的一对多匹配策略相结合。该方法旨在提高模型在检测页面上各种图形元素方面的准确性和通用性。我们在PubLayNet、DocLayNet和PubTables基准测试上的实验表明,我们的方法优于当前最先进的方法。它在PubLayNet上实现了97.3%的平均精度,在DocLayNet上实现了81.6%的平均精度,在PubTables上实现了98.6的平均精度,展示了其在布局分析方面的卓越性能。这些进展不仅增强了将文档图像转换为可编辑和可访问格式的能力,而且还简化了信息检索和数据提取过程。
- 图表
- 解决问题本论文旨在解决文档布局分析中的元素识别问题,即如何识别文本、图片、表格和标题等不同类型的元素。这是一个新问题。
- 关键思路该论文提出了一种基于Transformer的目标检测网络,作为创新的图形页面对象检测器,用于识别表格、图形和显示元素。通过引入查询编码机制,为对比学习提供高质量的对象查询,提高了解码器阶段的效率。在训练阶段,还提出了一种混合匹配方案,将解码器的原始一对一匹配策略与一对多匹配策略相结合,旨在提高模型在检测页面上的各种图形元素方面的准确性和适用性。
- 其它亮点该论文的亮点包括在PubLayNet、DocLayNet和PubTables基准测试上的实验结果,表明该方法优于当前最先进的方法。它在PubLayNet上实现了97.3%的平均精度,在DocLayNet上实现了81.6%的平均精度,在PubTables上实现了98.6的平均精度,证明了其在布局分析方面的卓越性能。此外,该论文的方法不仅提高了将文档图像转换为可编辑和可访问格式的能力,还简化了信息检索和数据提取过程。
- 最近在这个领域中,还有一些相关的研究,例如:《Table Detection Using Deep Learning》、《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》、《DocBank: A Benchmark Dataset for Document Layout Analysis》等。
沙发等你来抢
去评论
评论
沙发等你来抢