- 简介本文提出了一种利用Criss-Cross Attention和残差密集块来解决当前算法在面对复杂结构的艺术风格文本时表现下降的方法。我们的方法主要由特征提取骨干、特征增强网络、多尺度特征融合模块和边界判别模块组成。特征增强网络通过融合水平和竖直上下文信息显著提高了模型在复杂环境下的感知能力,使其能够捕捉艺术风格文本中被忽视的细节特征。我们将残差密集块融入特征金字塔网络中以抑制特征融合过程中背景噪声的影响。为了避免复杂的后处理,我们探索了一个边界判别模块,以指导正确生成边界提议。此外,鉴于电影海报标题通常使用艺术字体,我们收集了一个电影海报数据集,以解决艺术风格文本数据的稀缺性。广泛的实验表明,我们提出的方法在电影海报数据集上表现优异,并在多个基准数据集上产生了出色的结果。代码和电影海报数据集将在以下网址上提供:https://github.com/biedaxiaohua/Artistic-style-text-detection。
- 图表
- 解决问题本文旨在解决当前算法在处理艺术字体的文字检测时表现下降的问题。
- 关键思路本文提出了一种结合Criss-Cross Attention和残差密集块的方法,通过特征提取、特征增强、多尺度特征融合和边界判别等模块来提高算法的感知能力,并引入Movie-Poster数据集来解决艺术字体数据稀缺的问题。
- 其它亮点本文的方法在多个基准数据集上表现出色,同时提出的Movie-Poster数据集和代码也将公开。
- 最近的相关研究包括《TextBoxes++: A Single-Shot Oriented Scene Text Detector》、《EAST: An Efficient and Accurate Scene Text Detector》等。
沙发等你来抢
去评论
评论
沙发等你来抢