Optimizing Nepali PDF Extraction: A Comparative Study of Parser and OCR Technologies

2024年07月05日
  • 简介
    这项研究比较了从PDF文件中提取尼泊尔语内容所采用的PDF解析和光学字符识别(OCR)方法。PDF解析提供了快速和准确的提取,但在非Unicode尼泊尔字体方面存在挑战。OCR,尤其是PyTesseract,则克服了这些挑战,为数字化和扫描PDF文件提供了多样性。研究表明,虽然PDF解析器更快,但其准确性会根据PDF类型而波动。相比之下,OCR,尤其是PyTesseract,表现出一致的准确性,但提取时间稍长。考虑到该项目对尼泊尔语PDF文件的重视,PyTesseract成为最适合的库,平衡了提取速度和准确性。
  • 图表
  • 解决问题
    比较PDF解析和光学字符识别(OCR)方法从PDF中提取尼泊尔文本的效果,探讨如何在非Unicode尼泊尔字体上实现准确提取。
  • 关键思路
    使用OCR,特别是PyTesseract,可以克服PDF解析在非Unicode尼泊尔字体上的挑战,提供数字和扫描PDF的多样性,并且在提取速度和准确性上取得平衡。
  • 其它亮点
    实验结果显示,PDF解析器虽然速度较快,但准确性受PDF类型影响波动。相比之下,OCR,特别是PyTesseract,表现出一致的准确性,但提取时间稍长。研究重点在尼泊尔PDF上,PyTesseract成为最合适的库,平衡了提取速度和准确性。
  • 相关研究
    最近的相关研究包括:1. 'A Comparative Study of PDF Parsing and OCR for Text Extraction from Scholarly Articles';2. 'Comparison of PDF Parsing and OCR for Text Recognition in Digital Libraries'。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论