论文标题:PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network 论文链接:https://arxiv.org/abs/2104.05458 代码链接:https://github.com/PaddlePaddle/PaddleOCR 作者单位:西安电子科技大学 & 百度

没有NMS、RoI等操作,表现SOTA!性能优于ABCNet、CharNet等网络,速度高达46.7 FPS!代码刚刚开源!

阅读任意形状的文本已受到越来越多的研究关注。但是,现有的文本识别器大多建立在两阶段框架或基于字符的方法上,它们会受到非极大值抑制(NMS),兴趣区域(RoI)操作或字符级注释的困扰。在本文中,为解决上述问题,我们提出了一种新颖的全卷积点收集网络(PGNet),用于实时读取任意形状的文本。 PGNet是一个单阶段文本spotter,,其中像素级字符分类图是通过提出的PG-CTC损失学习的,从而避免了字符级注释的使用。使用PG-CTC解码器,我们可以从二维空间中收集高级字符分类向量,并将其解码为文本符号,而无需进行NMS和RoI操作,从而确保了高效率。此外,根据每个字符及其相邻字符之间的关系,提出了一种图形细化模块(GRM),以优化粗略识别并提高端到端性能otal-Text中,它以46.7 FPS的速度运行,大大超过了以前的观察者。

内容中包含的图片若涉及版权问题,请及时与我们联系删除