图片
论文地址:https://arxiv.org/abs/2209.03592

代码地址:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/MGP-STR

本文简要介绍ECCV2022录用论文“Multi-Granularity Prediction for Scene Text Recognition”。论文提出了一种简洁高效的文字识别方法MGP-STR,该方法直接使用Vision Transformer (ViT)进行特征提取,专门为文字识别任务设计了自适应寻址聚合模块A³进行解码,并利用多粒度预测来隐式引入语言信息,不需要搭建额外语言模型。实验结果表明,MGP-STR的识别精度在常见的场景文字识别数据集上取得SOTA性能,且推理效率高。目前代码已经开源。
MGP-STR方法整体框架如图2所示,主要由视觉特征提取模块、自适应寻址聚合 (A³) 模块和结果融合模块构成。
图片

图2. MGP-STR方法的整体结构

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除