Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

简介

本研究介绍了一种新型基础模型Qalam，用于阿拉伯文光学字符识别（OCR）和手写识别（HWR），由于阿拉伯文的连写和上下文敏感性，这些任务具有独特的挑战。该模型采用SwinV2编码器和RoBERTa解码器架构，经过训练后，Qalam在HWR任务中的单词错误率（WER）仅为0.80％，在OCR任务中为1.18％，明显优于现有方法。我们使用包括超过450万张阿拉伯手稿图像和包含60k个图像文本对的合成数据集在内的多样化数据集对Qalam进行训练。值得注意的是，Qalam表现出对阿拉伯文变音符号的出色处理能力，这是阿拉伯文中的关键特征。此外，它还展示了处理高分辨率输入的出色能力，解决了当前OCR系统中的常见限制。这些进步突显了Qalam作为阿拉伯文识别领域领先解决方案的潜力，为准确性和效率的显著提升带来了重大的飞跃。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：论文旨在解决阿拉伯文字符识别中的挑战，包括手写识别和光学字符识别。这是一个新问题。
关键思路

关键思路：论文提出了一种基于SwinV2编码器和RoBERTa解码器架构的新型模型Qalam，该模型在阿拉伯文字符识别任务中表现出色，特别是在处理阿拉伯文变音符方面表现出色。
其它亮点

其他亮点：Qalam在多个数据集上进行了训练，包括超过450万张阿拉伯手稿图像和一个包含60k个图像-文本对的合成数据集。该模型在处理高分辨率输入方面表现出色，并且在阿拉伯文字符识别任务中实现了1.18％的字错误率。论文还提供了开源代码。
相关研究

相关研究：最近的相关研究包括“Deep Residual Learning for Handwritten Arabic Character Recognition”和“Arabic Handwritten Text Recognition Using Deep Learning: A Survey”。

Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

提问交流

提问交流