VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition

2024年01月18日
  • 简介
    场景文本识别(STR)是一项具有挑战性的任务,涉及在自然场景图像中识别文本。尽管当前最先进的STR模型表现出很高的性能,但它们通常由视觉编码器和序列解码器组成的混合架构会导致推理效率低下。在本文中,我们提出了一种用于快速高效的场景文本识别(VIPTR)的视觉可置换提取器,它在STR领域实现了高性能和快速推理速度的惊人平衡。具体来说,VIPTR利用具有金字塔结构的视觉语义提取器,其特点是多个自我注意层,同时避免传统的序列解码器。这种设计选择导致了一个轻量级和高效的模型,能够处理不同大小的输入。对于中英文场景文本识别的各种标准数据集的广泛实验结果验证了VIPTR的优越性。值得注意的是,VIPTR-T(微型)变体提供了与其他轻量级模型相当的高竞争力的准确性,并实现了SOTA推理速度。同时,VIPTR-L(大型)变体获得了更高的识别准确性,同时保持低参数数量和良好的推理速度。我们提出的方法为STR挑战提供了一个引人注目的解决方案,将高准确性与效率相结合,极大地有利于需要快速可靠的文本识别的实际应用。代码公开可用于https://github.com/cxfyxl/VIPTR。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决场景文本识别中模型存在的推理效率低下的问题,提出了一种新的模型VIPTR。
  • 关键思路
    VIPTR模型采用了视觉-语义提取器,具有金字塔结构和多个自注意力层,同时避免了传统的序列解码器,从而实现了高性能和快速推理速度的平衡。
  • 其它亮点
    论文在多个标准数据集上进行了实验,验证了VIPTR模型的优越性,尤其是VIPTR-T版本具有与其他轻量级模型相当的准确性和SOTA推理速度。此外,VIPTR-L版本在保持低参数计数和优秀推理速度的同时,实现了更高的识别准确性。论文的代码已经公开发布在GitHub上。
  • 相关研究
    最近的相关研究包括:1. Yuan等人的“SegOCR:基于文本行分割和视觉注意力的场景文本识别”;2. Li等人的“Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition”;3. Shi等人的“ASTER: An Attentional Scene Text Recognizer with Flexible Rectification”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问