
本文简要介绍一篇被ECCV 2022录为oral的论文“Language Matters:A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting”。该论文提出了一种弱监督的预训练方法oCLIP,该方法通过联合学习和对齐视觉和文本信息来获得有效的场景文本表示,可以使用弱标注的文本进行预训练(仅对图片中的部分文字进行文字标注,且不需要框标注)。在ICDAR2019-LSVT[1]数据集上,文中的预训练方法利用数据集的弱标注,在检测任务和端到端任务上分别提升了2.5%和4.8%,文中的预训练方法在多个公开数据集上超过了目前已有的其他预训练方法。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢