针对场景文本检测任务,近期基于DEtection TRansformer (DETR) 框架预测控制点的研究工作较为活跃。在基于DETR的检测器中,query的构建方式至关重要,现有方法中较为粗糙的位置先验信息构建导致了较低的训练效率以及性能。除此之外,在如何监督模型方面,之前工作中使用的点标签形式影射了人的阅读顺序,本文观察到这实际上会降低检测器的鲁棒性。
论文链接:https://arxiv.org/pdf/2211.10772.pdf
为解决以上问题,本文提出了动态点场景文本检测模型DPText-DETR。①对于query构建方式的问题:本文提出了一种简洁高效的显式点query构建(Explicit Point Query Modeling, EPQM) 方法,直接利用点的坐标构建显式细化的位置先验信息以加速训练收敛,并且提出了一个增强的因子化自注意(Enhanced Factorized Self-Attention, EFSA) 模块进一步挖掘同一文本实例内控制点query之间的关系。②对于标签形式的问题:本文设计了一种简单的位置性形式(Positional Label Form)。为进一步探究真实场景中不同标签形式对检测鲁棒性的影响,本文提出了包含500张图像的测试集Inverse-Text进行验证,其中包含约40%的类反向(inverse-like)文本实例,弥补了现有数据文本类型的缺失。实验表明,本文提出的方法显著改善了模型的收敛速度、数据效率、对旋转文本检测的鲁棒性,并在Total-Text、CTW1500、ICDAR2019 ArT三个基准数据集上分别取得了89.0%、88.8%和78.1% F-measure的最先进性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢