The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses

2024年04月29日
  • 简介
    本文介绍了一种完整的处理工作流程,用于从1836年至1936年的法国人口普查清单中提取信息。这些清单包含有关在法国生活的个人和其家庭的信息。我们旨在使用自动手写表格识别技术提取这些表格中包含的所有信息。在Socface项目结束时,我们的工作将把提取出的信息重新分配给各省档案馆,并使名单对公众免费开放,使任何人都可以浏览数亿条记录。提取出的数据将被人口统计学家用于分析社会变化,从而显著改善我们对法国经济和社会结构的理解。为此项目,我们开发了完整的处理工作流程:从法国省级档案馆进行大规模数据收集,协作注释文档,训练手写表格文本和结构识别模型,以及对数百万图像进行大规模处理。我们介绍了我们开发的工具,用于轻松收集和处理数百万页数据。我们还展示了使用单个表格识别模型处理如此广泛的表格是可能的,该模型使用整个页面的图像来识别有关个人的信息,对其进行分类并自动将其分组到家庭中。整个过程已成功用于处理一个省级档案馆的文件,代表了超过45万张图像。
  • 图表
  • 解决问题
    本文旨在使用自动手写表格识别,从1836年到1936年的法国人口普查清单中提取所有信息,以便将提取的信息重新分配给部门档案馆,并使名单免费向公众提供,以便任何人都可以浏览数亿条记录。
  • 关键思路
    本文提出了一种完整的处理工作流程,使用自动手写表格识别从法国部门档案馆中大规模收集数据,并对文档进行协作注释、训练手写表格文本和结构识别模型以及批量处理数百万张图像。
  • 其它亮点
    本文展示了收集和处理数百万页的工具,以及使用整个页面的图像识别关于个人的信息、对他们进行分类并自动将其分组为家庭的单个表格识别模型处理如此广泛的表格是可能的。整个过程已成功用于处理一个部门档案馆的文件,其中包含超过450,000张图像。
  • 相关研究
    近年来,在表格识别领域中还有许多相关研究,例如“Deep Residual Learning for Nonlinear Regression”和“TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论