General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

2024年09月03日
  • 简介
    传统的OCR系统(OCR-1.0)由于人们对人造光学字符智能处理需求的增长,越来越难以满足人们的使用。本文中,我们将所有人造光学信号(例如普通文本、数学/分子公式、表格、图表、乐谱,甚至几何形状)统称为“字符”,并提出了通用OCR理论以及一个优秀的模型,即GOT,以促进OCR-2.0的到来。GOT是一个统一、优雅、端到端的模型,由高压缩编码器和长上下文解码器组成,具有580M个参数。作为OCR-2.0模型,GOT可以处理各种OCR任务下的所有上述“字符”。在输入端,该模型支持常用的场景和文档式图像以切片和整页样式。在输出端,GOT可以通过简单的提示生成纯文本或格式化结果(markdown/tikz/smiles/kern)。此外,该模型还具有交互式OCR功能,即由坐标或颜色引导的区域级识别。此外,我们还将动态分辨率和多页OCR技术应用于GOT,以提高实用性。在实验中,我们提供了充分的结果证明了我们模型的优越性。
  • 作者讲解·3
  • 图表
  • 解决问题
    本文旨在提出OCR-2.0的General OCR Theory以及相应的模型GOT,以解决OCR-1.0系统无法满足人们对人工光学字符智能处理的需求的问题。
  • 关键思路
    GOT模型是一个统一、优雅、端到端的模型,由高压缩编码器和长上下文解码器组成,可以处理各种OCR任务中的所有人工光学字符,并且支持各种常见的场景和文档样式图像的输入,以及生成各种格式的输出结果。
  • 其它亮点
    本文的亮点包括:GOT模型可以处理各种OCR任务中的所有人工光学字符,并且支持各种常见的场景和文档样式图像的输入;GOT模型可以生成各种格式的输出结果;GOT模型具有交互式OCR功能,可以进行区域级别的识别;本文还采用了动态分辨率和多页OCR技术来提高实用性。在实验中,本文提供了足够的结果来证明GOT模型的优越性。
  • 相关研究
    最近在OCR领域中,还有一些相关的研究,例如:《A Comprehensive Survey on Handwritten Text Recognition with Deep Learning》、《Deep Learning for Document Image Analysis: a Comprehensive Review》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问