- 简介手写文本识别在近年来得到了快速发展,这得益于深度学习及其应用的兴起。虽然深度学习方法在文本识别方面提供了显著的性能提升,但即使在小的预处理或架构/优化元素发生变化时,也可以检测到性能的非微小偏差。本文遵循“最佳实践”的理念,强调简单而有效的经验实践,可以进一步帮助训练并提供表现良好的手写文本识别系统。具体而言,我们考虑了深层HTR系统的三个基本方面,并提出了简单而有效的解决方案:1)在预处理步骤中保留图像的纵横比,2)使用最大池化将CNN输出的3D特征映射转换为特征序列,3)通过额外的CTC损失辅助训练过程,该损失作为最大池化的序列特征的快捷方式。使用这些提出的简单修改,可以在考虑基本卷积-循环(CNN+LSTM)架构的情况下,为IAM和RIMES数据集获得接近于最先进的结果。代码可在https://github.com/georgeretsi/HTR-best-practices/上获得。
- 图表
- 解决问题如何通过简单的实践方法,提高手写文本识别系统的性能?
- 关键思路通过保持图像的长宽比、使用最大池化将卷积神经网络输出的三维特征图转换为特征序列、并通过额外的CTC损失辅助训练,提高手写文本识别系统的性能。
- 其它亮点该论文提出的简单修改可以使基于卷积循环神经网络(CNN+LSTM)架构的手写文本识别系统达到接近最先进的结果,适用于IAM和RIMES数据集。代码开源。
- 最近的相关研究包括基于深度学习的手写文本识别方法、卷积神经网络在手写文本识别中的应用等。
沙发等你来抢
去评论
评论
沙发等你来抢