- 简介现有的场景文本识别器旨在从图像中定位和转录文本。然而,对于一个识别器来说,同时实现场景文本的精确检测和识别是具有挑战性的。受人类的窥视-聚焦识别流程和预训练语言模型(PLMs)在视觉任务上的出色表现的启发,我们提出以下问题:1)“机器能否像人类一样在没有精确检测的情况下识别文本?”如果是,2)“文本块是否是场景文本识别的另一种选择,而不是单词或字符?”为此,我们的场景文本识别器利用先进的PLMs提高性能,而无需进行精细的检测。具体而言,我们首先使用简单的检测器进行块级文本检测,以获得粗略的位置信息。然后,我们使用大规模OCR数据集对PLM进行微调,以实现精确的识别。由于在预训练阶段获得的全面语言知识,基于PLM的识别模块有效地处理复杂的情况,包括多行、反转、遮挡和不完整检测的文本。利用在场景识别基准测试中微调的语言模型和文本块检测范例,广泛的实验表明,我们的场景文本识别器在多个公共基准测试中表现优异。此外,我们尝试直接从整个场景图像中识别文本,以展示PLMs,甚至是大型语言模型(LLMs)的潜力。
-
- 图表
- 解决问题本论文试图解决场景文本识别中精确定位和准确识别同时存在的问题,提出了一种利用预训练语言模型的场景文本识别方法。
- 关键思路本文的关键思路是使用简单的块级文本检测器获取粗略的位置信息,然后利用预训练语言模型进行精确的识别。该方法在多个公共基准测试中表现出优异的性能。
- 其它亮点本文的亮点包括使用预训练语言模型进行场景文本识别,避免了精确定位的需求;使用大规模OCR数据集进行语言模型微调,使其能够有效处理复杂场景下的文本;在多个基准测试中表现出优异的性能。实验使用了多个数据集,并提供了开源代码。
- 最近在这个领域的相关研究包括:《Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework》、《TextBoxes++: A Single-Shot Oriented Scene Text Detector》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流