Optical Text Recognition in Nepali and Bengali: A Transformer-based Approach

2024年04月03日
  • 简介
    OCR系统的研究和开发针对低资源语言是相对较新的。低资源语言的训练数据很少,难以用于训练机器翻译系统或其他系统。尽管大量文本已经数字化并在互联网上提供,但这些文本仍然以PDF和图像格式存在,不是即时可访问的。本文讨论了两种语言的文本识别:孟加拉语和尼泊尔语;分别有约3亿和4千万的孟加拉语和尼泊尔语使用者。在本研究中,使用编码器-解码器转换器开发了一个模型,并使用一组光学文本图像(包括手写和印刷)评估了其有效性。结果表明,所提出的技术与当前方法相符,并能够高精度地识别孟加拉语和尼泊尔语的文本。本研究为东南亚地区语言学的先进和可访问研究铺平了道路。
  • 图表
  • 解决问题
    本文旨在研究和开发针对低资源语言的OCR系统,解决这些语言缺乏训练数据的问题。作者选择了孟加拉语和尼泊尔语作为研究对象,这两种语言的使用人数分别约为3亿和4千万。
  • 关键思路
    本文提出了使用编码器-解码器变压器的模型来识别孟加拉语和尼泊尔语的文本,取得了较高的识别精度。
  • 其它亮点
    本文使用了包括手写和印刷文本在内的一系列光学文本图像来评估模型的效果,实现了对低资源语言的OCR系统的研究和开发。这项研究为东南亚地区语言学的先进和可访问性研究铺平了道路。
  • 相关研究
    在这个领域中,近期还有一些相关的研究,如《Low Resource OCR for Indian Scripts Using Deep Learning Techniques》、《OCRopus AddOns for South and South-East Asian Scripts》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论