DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

向作者提问

NEW

简介

文档布局分析对于现实世界的文档理解系统至关重要，但其在速度和准确性之间面临着一个具有挑战性的权衡：多模态方法通过利用文本和视觉特征可以实现更高的准确性，但会遭受显著的延迟；而单模态方法仅依赖于视觉特征，虽然处理速度更快，但以牺牲准确性为代价。为了解决这一困境，我们引入了DocLayout-YOLO，这是一种新颖的方法，通过在预训练和模型设计中进行特定于文档的优化，既提高了准确性又保持了速度优势。为了实现稳健的文档预训练，我们引入了Mesh-candidate BestFit算法，该算法将文档合成问题转化为二维装箱问题，生成了大规模、多样化的DocSynth-300K数据集。在DocSynth-300K数据集上进行预训练显著提升了各种文档类型下的微调性能。在模型优化方面，我们提出了一种全局到局部可控感受野模块，能够更好地处理文档元素的多尺度变化。此外，为了验证不同文档类型下的性能，我们引入了一个复杂且具有挑战性的基准测试，命名为DocStructBench。在下游数据集上的大量实验表明，DocLayout-YOLO在速度和准确性方面都表现出色。代码、数据和模型可在https://github.com/opendatalab/DocLayout-YOLO获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决文档布局分析中的速度与准确性之间的权衡问题。多模态方法虽然提高了准确性，但处理速度较慢；而单模态方法虽然速度快，但准确率较低。这是一个在实际应用中广泛存在的问题。
关键思路

论文提出了DocLayout-YOLO，通过文档特定的优化在预训练和模型设计两个方面提升准确性，同时保持速度优势。具体来说，引入了Mesh-candidate BestFit算法生成大规模多样化的合成文档数据集DocSynth-300K，并设计了Global-to-Local Controllable Receptive Module来更好地处理文档元素的多尺度变化。
其它亮点

论文通过DocSynth-300K数据集的预训练显著提升了在各种文档类型上的微调性能。此外，提出了一个复杂且具有挑战性的基准测试DocStructBench，以验证不同文档类型下的性能。实验结果显示，DocLayout-YOLO在速度和准确性上都表现出色。代码、数据和模型已开源，可在https://github.com/opendatalab/DocLayout-YOLO获取。
相关研究

近年来，关于文档布局分析的研究逐渐增多。例如，《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》提出了一种结合文本和布局信息的预训练模型；《DocBank: A Large-Scale Dataset for Document Layout Analysis》构建了一个大规模的文档布局分析数据集；《Graph-based Document Layout Analysis》则探索了基于图的方法来处理文档布局。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问