- 简介文档布局分析对于现实世界的文档理解系统至关重要,但其在速度和准确性之间面临着一个具有挑战性的权衡:多模态方法通过利用文本和视觉特征可以实现更高的准确性,但会遭受显著的延迟;而单模态方法仅依赖于视觉特征,虽然处理速度更快,但以牺牲准确性为代价。为了解决这一困境,我们引入了DocLayout-YOLO,这是一种新颖的方法,通过在预训练和模型设计中进行特定于文档的优化,既提高了准确性又保持了速度优势。为了实现稳健的文档预训练,我们引入了Mesh-candidate BestFit算法,该算法将文档合成问题转化为二维装箱问题,生成了大规模、多样化的DocSynth-300K数据集。在DocSynth-300K数据集上进行预训练显著提升了各种文档类型下的微调性能。在模型优化方面,我们提出了一种全局到局部可控感受野模块,能够更好地处理文档元素的多尺度变化。此外,为了验证不同文档类型下的性能,我们引入了一个复杂且具有挑战性的基准测试,命名为DocStructBench。在下游数据集上的大量实验表明,DocLayout-YOLO在速度和准确性方面都表现出色。代码、数据和模型可在https://github.com/opendatalab/DocLayout-YOLO获取。
- 图表
- 解决问题该论文旨在解决文档布局分析中的速度与准确性之间的权衡问题。多模态方法虽然提高了准确性,但处理速度较慢;而单模态方法虽然速度快,但准确率较低。这是一个在实际应用中广泛存在的问题。
- 关键思路论文提出了DocLayout-YOLO,通过文档特定的优化在预训练和模型设计两个方面提升准确性,同时保持速度优势。具体来说,引入了Mesh-candidate BestFit算法生成大规模多样化的合成文档数据集DocSynth-300K,并设计了Global-to-Local Controllable Receptive Module来更好地处理文档元素的多尺度变化。
- 其它亮点论文通过DocSynth-300K数据集的预训练显著提升了在各种文档类型上的微调性能。此外,提出了一个复杂且具有挑战性的基准测试DocStructBench,以验证不同文档类型下的性能。实验结果显示,DocLayout-YOLO在速度和准确性上都表现出色。代码、数据和模型已开源,可在https://github.com/opendatalab/DocLayout-YOLO获取。
- 近年来,关于文档布局分析的研究逐渐增多。例如,《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》提出了一种结合文本和布局信息的预训练模型;《DocBank: A Large-Scale Dataset for Document Layout Analysis》构建了一个大规模的文档布局分析数据集;《Graph-based Document Layout Analysis》则探索了基于图的方法来处理文档布局。
沙发等你来抢
去评论
评论
沙发等你来抢