- 简介学术文档通常包含大量的文字、方程、表格和图形,需要全面理解才能进行准确的光学字符识别(OCR)。虽然端到端OCR方法比基于布局的方法具有更高的准确性,但它们经常在处理复杂的布局的文档时遇到重复问题,尤其是在域外(OOD)文档中。为了解决这个问题,我们提出了LOCR,这是一种在自回归过程中将位置引导集成到变压器架构中的模型。我们使用包括单词、表格和数学符号的边界框在内的超过77M个文本位置对的数据集对模型进行训练,该数据集包含125K个学术文档页面。LOCR熟练地处理各种格式元素,并生成Markdown语言的内容。在我们从arXiv构建的测试集中,LOCR在编辑距离、BLEU、METEOR和F度量方面表现优异,超过了所有现有方法。LOCR还将arXiv数据集中的重复频率从4.4%的页面降低到0.5%,将OOD量子物理文档中的重复频率从13.2%降低到1.3%,将OOD营销文档中的重复频率从8.1%降低到1.8%。此外,LOCR还具有交互式OCR模式,通过几个位置提示,方便生成复杂文档。
- 图表
- 解决问题本文旨在解决OCR在处理复杂排版的文档时重复率高的问题,提出了一种集成位置引导的transformer架构模型LOCR。
- 关键思路LOCR模型在自回归过程中集成位置引导,能够更好地处理复杂排版的文档,生成Markdown格式的内容,并在多个评价指标上优于现有方法。
- 其它亮点本文使用了超过77M个文本-位置对的数据集进行训练,包括单词、表格和数学符号的边界框。在arXiv数据集上,LOCR将重复率从4.4%降低到0.5%;在OOD量子物理文档和市场营销文档中,LOCR的重复率也有明显降低。此外,LOCR还具有交互式OCR模式,可以通过人类的几个位置提示来生成复杂文档。
- 相关研究包括:1. End-to-end OCR方法;2. 基于布局的OCR方法;3. 其他集成位置信息的OCR方法,如SPLAT-VO。
沙发等你来抢
去评论
评论
沙发等你来抢