Image Based Character Recognition, Documentation System To Decode Inscription From Temple

2024年05月21日
  • 简介
    本项目旨在对应用于布里哈迪什瓦拉寺庙墙上发现的10世纪古代泰米尔铭文的光学字符识别(OCR)方法进行培训和分析。所选的OCR方法包括Tesseract,这是一种广泛使用的OCR引擎,使用现代ICR技术对原始数据进行预处理,并使用框编辑软件来微调我们的模型。使用Tesseract进行的分析旨在评估其在准确解读古代泰米尔字符的微妙差别方面的有效性。我们的模型在数据集上的性能是通过其准确率确定的,其中评估数据集被分为训练集和测试集。通过解决脚本历史背景所带来的独特挑战,本研究旨在为OCR的更广泛领域提供有价值的见解,促进古代铭文的更好保存和解释。
  • 图表
  • 解决问题
    本论文旨在解决OCR在处理古代泰米尔文时所面临的挑战,通过对泰米尔文石刻进行OCR训练和分析,探究现代OCR技术在处理古代泰米尔文时的准确性和可行性。
  • 关键思路
    论文采用Tesseract OCR引擎和现代ICR技术进行预处理,使用框编辑软件对模型进行微调,以提高OCR在处理古代泰米尔文时的准确性。同时,论文还针对泰米尔文石刻的历史背景所带来的独特挑战,提出了一些解决方案。
  • 其它亮点
    论文使用Tesseract OCR引擎和现代ICR技术进行预处理,使用框编辑软件对模型进行微调,对古代泰米尔文进行OCR训练和分析。实验结果表明,该方法在处理古代泰米尔文时具有较高的准确性和可行性,为OCR在处理历史文献时提供了新的思路和方法。此外,论文还提出了一些解决古代泰米尔文OCR所面临的独特挑战的方案。
  • 相关研究
    最近在OCR领域,有许多关于OCR在处理历史文献时的研究。例如,Kumar等人的《OCR for Historical Printed Documents Using LSTM Networks》和Breuel等人的《High-Performance OCR for Printed English and Fraktur using LSTM Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论