- 简介这段摘要介绍了场景文本图像不仅包含风格信息(字体、背景),还包含内容信息(字符、纹理),不同的场景文本任务需要不同的信息,但是之前的表示学习方法为所有任务使用紧密耦合的特征,导致性能不佳。作者提出了一种名为DARLING的分解表示学习框架,旨在分解这两种类型的特征,以提高适应性,更好地解决各种下游任务。具体而言,他们合成了一组图像对数据集,具有相同的风格但不同的内容,并基于数据集设计了监督来解耦两种类型的特征。他们将视觉表示直接分成风格和内容特征,内容特征由文本识别损失进行监督,而对齐损失则对图像对中的风格特征进行对齐。然后,通过一个提示,使用风格特征重建对应的图像,以有效地根据它们的独特属性分解特征。据我们所知,这是场景文本领域首次分解文本图像的内在属性。该方法在场景文本识别、去除和编辑方面实现了最先进的性能。
- 图表
- 解决问题本论文旨在解决场景文本图像中的风格和内容信息耦合的问题,提出了一种分离表示学习框架(DARLING),以提高在各种下游任务中的适应性。
- 关键思路论文的关键思路是通过合成具有相同风格但不同内容的图像对,通过监督设计将场景文本图像的风格和内容特征分离开来,并通过样式特征重建对应图像。这种操作有效地根据它们的不同特性解耦特征。
- 其它亮点论文的亮点包括使用合成的数据集进行监督学习,成功地将场景文本图像的风格和内容特征分离开来;在场景文本识别、去除和编辑等任务中实现了最先进的性能;提供了开源代码。
- 在场景文本领域的相关研究包括:《Scene Text Recognition: An Overview》、《Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework》、《TextBoxes: A Fast Text Detector with a Single Deep Neural Network》等。
沙发等你来抢
去评论
评论
沙发等你来抢