来自今天的爱可可AI前沿推介

[CV] CLIPTER: Looking at the Bigger Picture in Scene Text Recognition

A Aberdam, D Bensaïd, A Golts, R Ganz, O Nuriel, R Tichauer, S Mazor, R Litman
[AWS AI Labs & Technion]

CLIPTER: 词级世界场景文本识别

要点:

  1. 提出 CLIPTER,用视觉语言模型为词级文本识别提供场景上下文;
  2. 框架简单灵活,模型无关且计算高效;
  3. 对12个数据集进行广泛验证,持续优于最先进的文本识别器并实现SoTA。

一句话总结:
CLIPTER 是一个框架,用视觉语言模型来改进基于裁剪的文本识别器,通过用简单的模型无关算法实现最先进的结果,并提高词表外单词的鲁棒性。

论文链接:https://arxiv.org/abs/2301.07464
图片
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除