Efficient scene text image super-resolution with semantic guidance

简介

场景文本图像超分辨率已经显著提高了场景文本识别的准确性。然而，许多现有方法强调性能而忽视了部署场景中轻量级解决方案的实际需求。面对这些问题，我们的工作提出了一个高效的框架SGENet，以便在资源受限的平台上部署。SGENet包含两个分支：超分辨率分支和语义引导分支。我们将轻量级预训练识别器作为语义提取器来增强对文本信息的理解。同时，我们设计了视觉-语义对齐模块，实现了图像特征和语义之间的双向对齐，从而生成高质量的先验引导。我们在基准数据集上进行了广泛的实验，所提出的SGENet在更少的计算成本下实现了出色的性能。代码可在https://github.com/SijieLiu518/SGENet获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

提出一个高效的框架SGENet，以解决在资源受限平台上实现场景文本图像超分辨率的问题。现有的方法强调性能而忽略了轻量级解决方案的实际需求。
关键思路

SGENet包含两个分支：超分辨率分支和语义引导分支。使用轻量级的预训练识别器作为语义提取器，同时设计视觉-语义对齐模块实现图像特征和语义之间的双向对齐，生成高质量的先验引导。
其它亮点

论文在基准数据集上进行了广泛的实验，SGENet在更少的计算成本下实现了出色的性能。代码已经在GitHub上开源。
相关研究

在场景文本图像超分辨率领域的相关研究包括：1. Learning to Super-Resolve Blurry and Low-Resolution Text Images in the Wild; 2. TextZoom: A Unified Text-Enhancing Approach for Both Curved and Straight Text; 3. Deep TextSR: Content-aware Text Super-resolution Guided by Recognition.

Efficient scene text image super-resolution with semantic guidance

提问交流

提问交流