PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents

简介

光学字符识别（OCR）是一项旨在识别图像中存在的文本的已建立任务。虽然许多现成的OCR模型存在，但它们通常是针对科学（例如公式）或通用印刷英文文本进行训练的。从化学出版物中提取文本需要一个能够同时胜任两个领域的OCR模型。最近的工具Nougat表现出解析学术文档的强大能力，但无法解析PubMed文章中的表格，这是学术界的重要组成部分，也是本文的重点。为了弥补这一差距，我们提出了Printed English and Chemical Equations（PEaCE）数据集，其中包含合成和真实记录，并评估了基于Transformer的OCR模型在训练此资源时的功效。由于真实记录包含合成记录中不存在的伪影，我们提出了模拟这些特性的变换。我们进行了一系列实验，以探索补丁大小、多域训练和我们提出的变换的影响，最终发现使用小补丁大小、在多个领域上进行训练并使用所提出的变换的模型具有最佳性能。我们的数据集和代码可在https://github.com/ZN1010/PEaCE上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决化学出版物中表格识别的问题，提出了PEaCE数据集和基于Transformer的OCR模型。
关键思路

论文提出了使用PEaCE数据集来训练基于Transformer的OCR模型，通过多领域训练和数据增强来提高识别性能。
其它亮点

PEaCE数据集包含合成和真实记录，提供了一些数据增强方法来模拟真实记录中的噪声和变形。实验表明，小的数据块大小、多领域训练和数据增强可以提高OCR模型的性能。
相关研究

最近的相关研究包括使用深度学习模型进行OCR的工作，以及使用数据增强方法来提高模型性能的工作。

PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents

提问交流

提问交流