General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

向作者提问

NEW

简介

传统的OCR系统（OCR-1.0）由于人们对人造光学字符智能处理需求的增长，越来越难以满足人们的使用。本文中，我们将所有人造光学信号（例如普通文本、数学/分子公式、表格、图表、乐谱，甚至几何形状）统称为“字符”，并提出了通用OCR理论以及一个优秀的模型，即GOT，以促进OCR-2.0的到来。GOT是一个统一、优雅、端到端的模型，由高压缩编码器和长上下文解码器组成，具有580M个参数。作为OCR-2.0模型，GOT可以处理各种OCR任务下的所有上述“字符”。在输入端，该模型支持常用的场景和文档式图像以切片和整页样式。在输出端，GOT可以通过简单的提示生成纯文本或格式化结果（markdown/tikz/smiles/kern）。此外，该模型还具有交互式OCR功能，即由坐标或颜色引导的区域级识别。此外，我们还将动态分辨率和多页OCR技术应用于GOT，以提高实用性。在实验中，我们提供了充分的结果证明了我们模型的优越性。
作者讲解·3
- 讲解视频
- 相关报道(3)
图表
解决问题

本文旨在提出OCR-2.0的General OCR Theory以及相应的模型GOT，以解决OCR-1.0系统无法满足人们对人工光学字符智能处理的需求的问题。
关键思路

GOT模型是一个统一、优雅、端到端的模型，由高压缩编码器和长上下文解码器组成，可以处理各种OCR任务中的所有人工光学字符，并且支持各种常见的场景和文档样式图像的输入，以及生成各种格式的输出结果。
其它亮点

本文的亮点包括：GOT模型可以处理各种OCR任务中的所有人工光学字符，并且支持各种常见的场景和文档样式图像的输入；GOT模型可以生成各种格式的输出结果；GOT模型具有交互式OCR功能，可以进行区域级别的识别；本文还采用了动态分辨率和多页OCR技术来提高实用性。在实验中，本文提供了足够的结果来证明GOT模型的优越性。
相关研究

最近在OCR领域中，还有一些相关的研究，例如：《A Comprehensive Survey on Handwritten Text Recognition with Deep Learning》、《Deep Learning for Document Image Analysis: a Comprehensive Review》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问