LOCR: Location-Guided Transformer for Optical Character Recognition

简介

学术文档通常包含大量的文字、方程、表格和图形，需要全面理解才能进行准确的光学字符识别（OCR）。虽然端到端OCR方法比基于布局的方法具有更高的准确性，但它们经常在处理复杂的布局的文档时遇到重复问题，尤其是在域外（OOD）文档中。为了解决这个问题，我们提出了LOCR，这是一种在自回归过程中将位置引导集成到变压器架构中的模型。我们使用包括单词、表格和数学符号的边界框在内的超过77M个文本位置对的数据集对模型进行训练，该数据集包含125K个学术文档页面。LOCR熟练地处理各种格式元素，并生成Markdown语言的内容。在我们从arXiv构建的测试集中，LOCR在编辑距离、BLEU、METEOR和F度量方面表现优异，超过了所有现有方法。LOCR还将arXiv数据集中的重复频率从4.4％的页面降低到0.5％，将OOD量子物理文档中的重复频率从13.2％降低到1.3％，将OOD营销文档中的重复频率从8.1％降低到1.8％。此外，LOCR还具有交互式OCR模式，通过几个位置提示，方便生成复杂文档。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决OCR在处理复杂排版的文档时重复率高的问题，提出了一种集成位置引导的transformer架构模型LOCR。
关键思路

LOCR模型在自回归过程中集成位置引导，能够更好地处理复杂排版的文档，生成Markdown格式的内容，并在多个评价指标上优于现有方法。
其它亮点

本文使用了超过77M个文本-位置对的数据集进行训练，包括单词、表格和数学符号的边界框。在arXiv数据集上，LOCR将重复率从4.4%降低到0.5%；在OOD量子物理文档和市场营销文档中，LOCR的重复率也有明显降低。此外，LOCR还具有交互式OCR模式，可以通过人类的几个位置提示来生成复杂文档。
相关研究

相关研究包括：1. End-to-end OCR方法；2. 基于布局的OCR方法；3. 其他集成位置信息的OCR方法，如SPLAT-VO。

LOCR: Location-Guided Transformer for Optical Character Recognition

提问交流

提问交流