LOCR: Location-Guided Transformer for Optical Character Recognition

2024年03月04日
  • 简介
    学术文档通常包含大量的文字、方程、表格和图形,需要全面理解才能进行准确的光学字符识别(OCR)。虽然端到端OCR方法比基于布局的方法具有更高的准确性,但它们经常在处理复杂的布局的文档时遇到重复问题,尤其是在域外(OOD)文档中。为了解决这个问题,我们提出了LOCR,这是一种在自回归过程中将位置引导集成到变压器架构中的模型。我们使用包括单词、表格和数学符号的边界框在内的超过77M个文本位置对的数据集对模型进行训练,该数据集包含125K个学术文档页面。LOCR熟练地处理各种格式元素,并生成Markdown语言的内容。在我们从arXiv构建的测试集中,LOCR在编辑距离、BLEU、METEOR和F度量方面表现优异,超过了所有现有方法。LOCR还将arXiv数据集中的重复频率从4.4%的页面降低到0.5%,将OOD量子物理文档中的重复频率从13.2%降低到1.3%,将OOD营销文档中的重复频率从8.1%降低到1.8%。此外,LOCR还具有交互式OCR模式,通过几个位置提示,方便生成复杂文档。
  • 图表
  • 解决问题
    本文旨在解决OCR在处理复杂排版的文档时重复率高的问题,提出了一种集成位置引导的transformer架构模型LOCR。
  • 关键思路
    LOCR模型在自回归过程中集成位置引导,能够更好地处理复杂排版的文档,生成Markdown格式的内容,并在多个评价指标上优于现有方法。
  • 其它亮点
    本文使用了超过77M个文本-位置对的数据集进行训练,包括单词、表格和数学符号的边界框。在arXiv数据集上,LOCR将重复率从4.4%降低到0.5%;在OOD量子物理文档和市场营销文档中,LOCR的重复率也有明显降低。此外,LOCR还具有交互式OCR模式,可以通过人类的几个位置提示来生成复杂文档。
  • 相关研究
    相关研究包括:1. End-to-end OCR方法;2. 基于布局的OCR方法;3. 其他集成位置信息的OCR方法,如SPLAT-VO。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论