Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss

简介

场景文本识别是计算机视觉中重要且具有挑战性的任务。然而，大多数先前的工作都集中在识别预定义的单词上，而实际应用中存在各种各样的未知词汇。本文提出了一种新颖的开放式词汇文本识别框架Pseudo-OCR，以识别未知词汇。这项任务的关键挑战是缺乏未知词汇的训练数据。为解决这个问题，我们首先提出了一个伪标签生成模块，利用字符检测和图像修复从实际图像中产生大量的伪未知词汇训练数据。与之前的合成数据不同，我们的伪未知数据包含真实字符和背景，以模拟实际应用。其次，为了减少伪数据中的噪声，我们提出了一个语义检查机制，以过滤语义上有意义的数据。第三，我们引入了一种质量感知的边缘损失来提高伪数据的训练。我们的损失包括一个基于边缘的部分来增强分类能力，以及一个质量感知的部分来惩罚真实和伪数据中的低质量样本。大量实验证明，我们的方法在八个数据集上优于现有技术，并在ICDAR2022挑战赛中获得第一名。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一种新的开放词汇文本识别框架，用于识别现实世界中的未登录词汇。
关键思路

通过伪标签生成模块，利用字符检测和图像修复技术，从现实世界的图像中生成大量的伪OOV训练数据。通过语义检查机制过滤有意义的数据，并引入质量感知的边缘损失来提高训练质量。
其它亮点

实验结果表明，该方法在八个数据集上优于现有技术，并在ICDAR2022挑战赛中获得第一名。
相关研究

最近的相关研究包括：1）基于深度学习的文本识别方法；2）基于合成数据的文本识别方法；3）基于语义检查的文本识别方法。

Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss

提问交流

提问交流