ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型（有源码）

本文是对快手和浙大联合研究的视频OCR领域工作的简要介绍，包括 CoTex【Real-time End-to-End Video Text Spotter with Contrastive Representation Learning】和 SVRep【Contrastive Learning of Semantic and Visual Representations for Text Tracking】，其中CoText被ECCV2022录用，SVRep作为前作未出版，本文后续统一用CoText作为简称。这篇文章介绍的基于对比学习和多信息融合的视频OCR模型，主要特点是能够准确、高效的跟踪和识别视频中的文字，目前在ICDAR2015-Video in Text 等多个开源数据集实现SOTA。完整的代码已经开源，我们会在文本附上链接。

一、背景

视频作为移动互联网时代飞速发展的新媒体形式，已经超越了图片、文本等传统媒体形式，正在成为互联网的主要应用，其中视频文字作为高级语义载体，是视频感知、内容理解等方面的重要基础信息。

传统的光学字符识别（OCR）研究工作集中在图像领域，主要包含文本检测和识别过程，且在很多应用场景下都取得了较高的精度。然而，近年来视频OCR（Video Text Spotting，端到端视频文字识别，需要模型同时去完成检测，跟踪，和识别的任务）作为新的挑战，社区的关注较低，研究工作也不多，导致很多基于视频OCR的应用难以成熟落地，如视频理解，视频检索等。

先前存在的一些视频OCR研究工作，都存在以下几点问题：

仅利用视觉特征做视频前后帧的文字的表征，而忽略了文字的语义特征；● 文字跟踪仅基于相邻帧，忽略了视频的长时序列依赖● 现有的端到端模型，多使用多个独立子模型处理检测、跟踪、识别三个子任务，并使用手动策略（IOU等）整合结果，模型复杂，推理速度慢

为此，本文提出了一个基于对比学习和多信息表征的端到端视频OCR模型CoText，与现有的方法相比，CoText主要有4点贡献：

实现了一个统一的轻量级的框架，同时处理检测、跟踪、识别三个子任务，做到端到端可训练● 提出了三种轻量级特征编码结构：Visual Encoder、Semantic Encoder和Position Encoder去学习文字的视觉表示、语义表示和位置表示，让模型 “像人类一样“ 去跟踪和识别文字● 不同于先前工作（只利用两帧，做前后关联比对），CoText基于对比学习，在多信息特征空间同时学习多帧的时序信息● CoText在4个开源数据集实现SOTA，并具有更快的推理速度。其中，在ICDAR2015 Video数据集下，CoText到达了72.0%的IDF1，相比先前的SOTA算法提升10.5%的同时，推理速度为其4倍

二、方法

2.1 算法框架

图1 CoText 算法架构

如图1所示，本文的网络框架主要包括Backbone（如Resnet18），FPN、上采样，Maked-roi和三个Head，包括检测头、识别头和跟踪头。其中检测头和Masked-Roi继承自PAN++[1]；为了获得高性能的推理速度，识别头采用轻量级CRNN；对于跟踪头，我们将识别头输出的文字的语义序列特征和从Masked-roi获取的视觉特征、位置特征三种特征融合在一起，获得文字的最终特征表示R。最后通过基于余弦距离的Kuhn-Munkres(KM算法/匈牙利匹配)进行相邻帧文字的比对关联，获得最终的跟踪结果。通过这个架构，CoText可以同时获得文字的检测框、跟踪id和文字的识别内容。

在训练阶段，三种损失函数各自优化三哥任务头，其中跟踪头基于对比学习，将持续不同帧的相同文字对象视为同类，不同文本对象视作不同类，以此学习视频文字的时序信息。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ECCV2022 | 基于对比学习和多信息表征的端到端视频OCR模型（有源码）

评论