Best Practices for a Handwritten Text Recognition System

2024年04月17日
  • 简介
    手写文本识别在近年来得到了快速发展,这得益于深度学习及其应用的兴起。虽然深度学习方法在文本识别方面提供了显著的性能提升,但即使在小的预处理或架构/优化元素发生变化时,也可以检测到性能的非微小偏差。本文遵循“最佳实践”的理念,强调简单而有效的经验实践,可以进一步帮助训练并提供表现良好的手写文本识别系统。具体而言,我们考虑了深层HTR系统的三个基本方面,并提出了简单而有效的解决方案:1)在预处理步骤中保留图像的纵横比,2)使用最大池化将CNN输出的3D特征映射转换为特征序列,3)通过额外的CTC损失辅助训练过程,该损失作为最大池化的序列特征的快捷方式。使用这些提出的简单修改,可以在考虑基本卷积-循环(CNN+LSTM)架构的情况下,为IAM和RIMES数据集获得接近于最先进的结果。代码可在https://github.com/georgeretsi/HTR-best-practices/上获得。
  • 图表
  • 解决问题
    如何通过简单的实践方法,提高手写文本识别系统的性能?
  • 关键思路
    通过保持图像的长宽比、使用最大池化将卷积神经网络输出的三维特征图转换为特征序列、并通过额外的CTC损失辅助训练,提高手写文本识别系统的性能。
  • 其它亮点
    该论文提出的简单修改可以使基于卷积循环神经网络(CNN+LSTM)架构的手写文本识别系统达到接近最先进的结果,适用于IAM和RIMES数据集。代码开源。
  • 相关研究
    最近的相关研究包括基于深度学习的手写文本识别方法、卷积神经网络在手写文本识别中的应用等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论