PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents

2024年03月23日
  • 简介
    光学字符识别(OCR)是一项旨在识别图像中存在的文本的已建立任务。虽然许多现成的OCR模型存在,但它们通常是针对科学(例如公式)或通用印刷英文文本进行训练的。从化学出版物中提取文本需要一个能够同时胜任两个领域的OCR模型。最近的工具Nougat表现出解析学术文档的强大能力,但无法解析PubMed文章中的表格,这是学术界的重要组成部分,也是本文的重点。为了弥补这一差距,我们提出了Printed English and Chemical Equations(PEaCE)数据集,其中包含合成和真实记录,并评估了基于Transformer的OCR模型在训练此资源时的功效。由于真实记录包含合成记录中不存在的伪影,我们提出了模拟这些特性的变换。我们进行了一系列实验,以探索补丁大小、多域训练和我们提出的变换的影响,最终发现使用小补丁大小、在多个领域上进行训练并使用所提出的变换的模型具有最佳性能。我们的数据集和代码可在https://github.com/ZN1010/PEaCE上获得。
  • 图表
  • 解决问题
    论文旨在解决化学出版物中表格识别的问题,提出了PEaCE数据集和基于Transformer的OCR模型。
  • 关键思路
    论文提出了使用PEaCE数据集来训练基于Transformer的OCR模型,通过多领域训练和数据增强来提高识别性能。
  • 其它亮点
    PEaCE数据集包含合成和真实记录,提供了一些数据增强方法来模拟真实记录中的噪声和变形。实验表明,小的数据块大小、多领域训练和数据增强可以提高OCR模型的性能。
  • 相关研究
    最近的相关研究包括使用深度学习模型进行OCR的工作,以及使用数据增强方法来提高模型性能的工作。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论