Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition

2024年04月20日
  • 简介
    从科学论文和财务报告等文档中提取表格内容,并将其转换为大型语言模型可以处理的格式,是知识信息处理中的重要任务。端到端方法不仅识别表格结构,而且识别单元格内容,其性能可与使用外部字符识别系统的最先进模型相媲美,并具有进一步改进的潜力。此外,通过引入局部注意力,这些模型现在可以识别具有数百个单元格的长表格。然而,这些模型仅从标题到页脚单向识别表格结构,并且对于每个单元格独立地执行单元格内容识别,因此没有机会从相邻单元格中检索有用信息。在本文中,我们提出了一个多单元格内容解码器和双向相互学习机制,以改进端到端方法。在两个大型数据集上证明了其有效性,并且实验结果显示,即使对于具有大量单元格的长表格,其性能也可与最先进的模型相媲美。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提高文档中表格内容的识别精度以及提取效率,通过提出多单元格内容解码器和双向互学习机制来改进端到端的方法。
  • 关键思路
    本文提出了一种多单元格内容解码器和双向互学习机制,以改善端到端方法的表格结构识别和单元格内容识别,从而可以从相邻单元格中检索有用信息。
  • 其它亮点
    本文的实验结果表明,所提出的方法在两个大型数据集上的表现与现有最先进模型相当,即使是对于具有大量单元格的长表格也是如此。
  • 相关研究
    最近的相关研究集中在表格识别和表格内容识别上,例如《TableBank: An Open-Source Table Benchmark for High-Level Table Understanding》和《Table Structure Recognition using Neural Networks with Semantic and Structural Embeddings》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问