- 简介光学字符识别(OCR)是一项旨在识别图像中存在的文本的已建立任务。虽然许多现成的OCR模型存在,但它们通常是针对科学(例如公式)或通用印刷英文文本进行训练的。从化学出版物中提取文本需要一个能够同时胜任两个领域的OCR模型。最近的工具Nougat表现出解析学术文档的强大能力,但无法解析PubMed文章中的表格,这是学术界的重要组成部分,也是本文的重点。为了弥补这一差距,我们提出了Printed English and Chemical Equations(PEaCE)数据集,其中包含合成和真实记录,并评估了基于Transformer的OCR模型在训练此资源时的功效。由于真实记录包含合成记录中不存在的伪影,我们提出了模拟这些特性的变换。我们进行了一系列实验,以探索补丁大小、多域训练和我们提出的变换的影响,最终发现使用小补丁大小、在多个领域上进行训练并使用所提出的变换的模型具有最佳性能。我们的数据集和代码可在https://github.com/ZN1010/PEaCE上获得。
- 图表
- 解决问题论文旨在解决化学出版物中表格识别的问题,提出了PEaCE数据集和基于Transformer的OCR模型。
- 关键思路论文提出了使用PEaCE数据集来训练基于Transformer的OCR模型,通过多领域训练和数据增强来提高识别性能。
- 其它亮点PEaCE数据集包含合成和真实记录,提供了一些数据增强方法来模拟真实记录中的噪声和变形。实验表明,小的数据块大小、多领域训练和数据增强可以提高OCR模型的性能。
- 最近的相关研究包括使用深度学习模型进行OCR的工作,以及使用数据增强方法来提高模型性能的工作。
沙发等你来抢
去评论
评论
沙发等你来抢