- 简介本研究介绍了一种新型基础模型Qalam,用于阿拉伯文光学字符识别(OCR)和手写识别(HWR),由于阿拉伯文的连写和上下文敏感性,这些任务具有独特的挑战。该模型采用SwinV2编码器和RoBERTa解码器架构,经过训练后,Qalam在HWR任务中的单词错误率(WER)仅为0.80%,在OCR任务中为1.18%,明显优于现有方法。我们使用包括超过450万张阿拉伯手稿图像和包含60k个图像文本对的合成数据集在内的多样化数据集对Qalam进行训练。值得注意的是,Qalam表现出对阿拉伯文变音符号的出色处理能力,这是阿拉伯文中的关键特征。此外,它还展示了处理高分辨率输入的出色能力,解决了当前OCR系统中的常见限制。这些进步突显了Qalam作为阿拉伯文识别领域领先解决方案的潜力,为准确性和效率的显著提升带来了重大的飞跃。
-
- 图表
- 解决问题解决问题:论文旨在解决阿拉伯文字符识别中的挑战,包括手写识别和光学字符识别。这是一个新问题。
- 关键思路关键思路:论文提出了一种基于SwinV2编码器和RoBERTa解码器架构的新型模型Qalam,该模型在阿拉伯文字符识别任务中表现出色,特别是在处理阿拉伯文变音符方面表现出色。
- 其它亮点其他亮点:Qalam在多个数据集上进行了训练,包括超过450万张阿拉伯手稿图像和一个包含60k个图像-文本对的合成数据集。该模型在处理高分辨率输入方面表现出色,并且在阿拉伯文字符识别任务中实现了1.18%的字错误率。论文还提供了开源代码。
- 相关研究:最近的相关研究包括“Deep Residual Learning for Handwritten Arabic Character Recognition”和“Arabic Handwritten Text Recognition Using Deep Learning: A Survey”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流