Synthesizing Realistic Data for Table Recognition

2024年04月17日
  • 简介
    我们提出了一种新的方法来合成专门用于表格识别的注释数据,以克服当前自动表格数据注释方法和随机表格数据合成方法的限制和挑战。该方法利用现有复杂表格的结构和内容,便于高效地创建与目标领域中真实样式密切匹配的表格。通过利用中国金融公告中实际表格的结构和内容,我们开发了该领域中第一个广泛的表格注释数据集。我们使用这个数据集来训练几个最近基于深度学习的端到端表格识别模型。此外,我们建立了中国金融公告领域实际复杂表格的首个基准,用它来评估在我们的合成数据上训练的模型的表现,从而有效地验证了我们的方法的实用性和有效性。此外,我们将我们的合成方法应用于增强从英文金融公告中提取的FinTabNet数据集,通过增加具有多个跨度单元格的表格的比例来引入更大的复杂性。我们的实验表明,在这个增强的数据集上训练的模型在性能方面取得了全面的改进,特别是在多个跨度单元格的表格识别方面。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决当前自动表格数据标注和随机表格数据合成方法的局限性和挑战,提出一种专门针对表格识别的合成注释数据的新方法。
  • 关键思路
    该方法利用现有复杂表格的结构和内容,有效地创建了与目标领域中真实样式密切相似的表格,从而使得训练出的深度学习模型在表格识别方面表现更好。
  • 其它亮点
    论文使用了来自中国金融公告的表格数据集,建立了该领域的第一个广泛的表格注释数据集,并使用该数据集训练了多个最近的深度学习模型。同时,论文还通过增加跨越多个单元格的表格的比例来增强FinTabNet数据集,实验结果表明,该方法在表格识别方面的性能有了全面的提升。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《TableBank: Table Benchmark for Image-based Table Detection and Recognition》、《Table Detection using Deep Learning and Data Augmentation》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问