UniTable: Towards a Unified Framework for Table Structure Recognition via Self-Supervised Pretraining

2024年03月07日
  • 简介
    表格传达人类创造的隐含约定下的事实和数量数据,这通常对机器来说是具有挑战性的。以往的表格结构识别(TSR)工作主要集中于可用输入和工具的复杂任务特定组合。我们提出了UniTable,这是一个训练框架,将TSR的训练范式和训练目标统一起来。它的训练范式将纯像素级输入的简单性与自我监督预训练(SSP)从多样化的未注释表格图像中获得的有效性和可扩展性相结合。我们的框架将所有三个TSR任务的训练目标 - 提取表格结构、单元格内容和单元格边界框(bbox) - 统一为一个任务不可知的训练目标:语言建模。广泛的定量和定性分析突出了UniTable在四个最大的TSR数据集上的最新性能。为了促进可重复的研究、增强透明度和最新技术创新,我们在https://github.com/poloclub/unitable上开源了我们的代码,并发布了第一个支持所有三个TSR任务的、在多个TSR数据集上进行微调的推理流程的Jupyter Notebook。
  • 图表
  • 解决问题
    UniTable论文旨在解决表格结构识别(TSR)中的三个任务(提取表格结构、单元格内容和单元格边界框)的训练难题,以及表格数据的自动化处理问题。
  • 关键思路
    UniTable采用了自监督预训练(SSP)和统一的语言建模训练目标来解决TSR的训练难题,同时将纯像素级输入和多样化的未注释表格图像相结合,实现了任务无关的训练目标。
  • 其它亮点
    该论文在四个最大的TSR数据集上展示了UniTable的最新性能,实现了最先进的结果。此外,作者还开源了代码和Jupyter Notebook,以促进可重复性研究和透明度。
  • 相关研究
    在TSR领域,最近的相关研究包括DeepDeSRT、TableBank和TableNet等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论