论文链接:https://arxiv.org/abs/2203.09388

本文简要介绍CVPR 2022录用论文“A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution“的主要工作。该工作提出了一个新的用于场景文本图像超分的文本注意力网络, 利用文本先验知识来指导整个超分过程;现有基于CNN的场景文本超分方法难以为空间形变文本重建高分辨率图像,针对这一问题,该工作提出了一个基于Transformer架构的TP Interpreter模块,利用全局注意力机制将文本先验和图像特征进行对齐,以实现更好的SR恢复。实验结果表明,TATT在各评测指标上取得SOTA性能,尤其是下游任务的识别精度上有较明显的提升。

内容中包含的图片若涉及版权问题,请及时与我们联系删除