Layout-Aware OCR for Black Digital Archives with Unsupervised Evaluation

向作者提问

NEW

简介

尽管黑人数字档案在文化和历史上具有重要意义，但在人工智能研究和基础设施中，这一领域在结构上仍然处于代表性不足的状态。这一点在对历史上的黑人报纸进行数字化的努力中尤为明显：尽管已有多种声称具备良好光学字符识别（OCR）能力的系统，但不一致的字体、视觉退化以及有限的带标注版式数据，仍然阻碍了准确的文本转录。在这篇短文中，我们提出了一种针对黑人报纸档案的版式感知OCR流程，并引入了一种适用于资源有限的档案环境的无监督评估框架。我们的方法结合了合成版式生成、在增强数据上的模型预训练，以及多种最先进的“你只看一次”（YOLO）检测器的融合应用。我们采用了三种无需标注的评估指标：语义连贯性评分（SCS）、区域熵（RE）和文本冗余评分（TRS），用以衡量OCR识别区域中的语言流畅性、信息多样性和冗余程度。在来自十种黑人报纸的400页数据集上的评估结果显示，相比传统的整页OCR基线方法，版式感知OCR在结构多样性方面有所提升，在冗余性方面有所降低，仅在连贯性上略有牺牲。我们的研究结果突显了在人工智能驱动的文档理解中尊重文化版式逻辑的重要性，并为未来以社区为导向、以伦理为基础的档案AI系统奠定了基础。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决黑人历史报纸数字化过程中由于排版不一致、视觉退化和缺乏标注布局数据导致的OCR识别准确率低的问题。尽管现有OCR系统声称能有效处理文本识别，但在复杂布局和低资源档案场景下表现不佳。该问题在AI研究和基础设施中长期被结构性忽视，尤其涉及黑人文化遗产时更为突出，因此具有社会与技术双重意义，虽非全新问题，但在文化敏感性和布局感知方面构成了新的挑战。
关键思路

提出一种面向黑人报纸档案的布局感知OCR流水线，并引入一种适用于低资源档案环境的无监督评估框架。关键创新在于结合合成布局生成、数据增强下的模型预训练，以及多个YOLO检测器的融合策略，以更好地捕捉复杂版面结构；同时使用无需人工标注的语义连贯性、区域熵和文本冗余度指标进行评估，突破了传统依赖标注数据的OCR评估局限。
其它亮点

实验基于来自10种黑人报纸的400页真实档案数据集，验证了布局感知方法相比全页处理基线在提升结构多样性和降低文本冗余方面的优势，尽管语义连贯性略有下降。论文采用三个无标注评估指标（SCS、RE、TRS），为低资源、少标注的历史档案场景提供了可推广的评估范式。代码与数据集尚未明确开源，但其评估框架和合成数据方法为后续社区驱动、伦理导向的档案AI系统奠定了基础，值得进一步探索跨文化文档理解与去中心化数字保存路径。
相关研究

1. 'Don't Read Too Much Into It: Leveraging Layout for Text Extraction from Scanned Documents with LAYGA' (2023) 2. 'Historical Document Image Analysis and Recognition: A Survey' (2022) 3. 'Low-Resource OCR for Degraded Historical Documents Using Synthetic Data' (2021) 4. 'Culturally Aware AI: Challenges in Digitizing Marginalized Archives' (2023) 5. 'YOLO-Doc: Document Layout Detection with YOLO Series Networks' (2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问