Best Practices for a Handwritten Text Recognition System

简介

手写文本识别在近年来得到了快速发展，这得益于深度学习及其应用的兴起。虽然深度学习方法在文本识别方面提供了显著的性能提升，但即使在小的预处理或架构/优化元素发生变化时，也可以检测到性能的非微小偏差。本文遵循“最佳实践”的理念，强调简单而有效的经验实践，可以进一步帮助训练并提供表现良好的手写文本识别系统。具体而言，我们考虑了深层HTR系统的三个基本方面，并提出了简单而有效的解决方案：1）在预处理步骤中保留图像的纵横比，2）使用最大池化将CNN输出的3D特征映射转换为特征序列，3）通过额外的CTC损失辅助训练过程，该损失作为最大池化的序列特征的快捷方式。使用这些提出的简单修改，可以在考虑基本卷积-循环（CNN+LSTM）架构的情况下，为IAM和RIMES数据集获得接近于最先进的结果。代码可在https://github.com/georgeretsi/HTR-best-practices/上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何通过简单的实践方法，提高手写文本识别系统的性能？
关键思路

通过保持图像的长宽比、使用最大池化将卷积神经网络输出的三维特征图转换为特征序列、并通过额外的CTC损失辅助训练，提高手写文本识别系统的性能。
其它亮点

该论文提出的简单修改可以使基于卷积循环神经网络（CNN+LSTM）架构的手写文本识别系统达到接近最先进的结果，适用于IAM和RIMES数据集。代码开源。
相关研究

最近的相关研究包括基于深度学习的手写文本识别方法、卷积神经网络在手写文本识别中的应用等。

Best Practices for a Handwritten Text Recognition System

提问交流

提问交流