本文提出了一种新的场景文字擦除网络,通过引入基于区域的修改策略和迭代擦除的思想,在降低模型参数量(25%以上)的同时,大幅提升了场景文字的擦除性能(SOTA)。整个训练过程不需要引入额外的对抗损失。

解决问题:

  1. 迭代擦除学习难度不平衡问题。以往的迭代擦除方法基于粗擦除和精细擦除两个网络,由于每个部分的网络都直接通过最终的擦除结果进行监督,导致了很难平衡两个网络的结构,造成擦除不彻底的问题。另外,因为两个网络结构之前相互独立,因此极大地增加了模型的复杂度。

  2. 没有实现文字检测和背景重建的完全解藕。虽然EraseNet引入了检测分支隐性地感知文字区域信息,实际上背景重建分支还是需要感知文字的位置信息,因此增加了重建分支的学习难度,导致对非文字区域的擦除(即无法保证非文字背景区域的完整性)。

本文贡献:

  1. 新的基于区域的擦除策略。实现文字擦除过程中文字定位和背景重建的完全解藕,降低背景重建分支的学习难度。

  2. 共享参数的迭代擦除策略。通过只对最后一步的擦除结果进行监督,有效的平衡了每个擦除步骤的学习难度(在之前的方法中忽略的问题)。

  3. 新的Region-Global Loss。从全局和局部的视角保证特征的一致性。

 

更多详情请阅读原文。

 

论文链接:https://arxiv.org/abs/2106.13029
代码链接:wangyuxin87/PERT

内容中包含的图片若涉及版权问题,请及时与我们联系删除