- 简介许多文档,我们称之为模板化文档,是通过填充可视化模板中的字段而程序生成的。从这些文档中有效提取数据对于支持下游分析任务至关重要。当前的数据提取工具在处理复杂文档布局时常常遇到困难,在处理大型数据集时会带来高延迟和/或成本,并且在从文档中提取用户指定字段的表格或值时通常需要大量的人工努力。我们的工具TWIX的关键见解是预测用于创建此类文档的底层模板,建模文档之间的视觉和结构共性。基于此预测模板的数据提取提供了一种更合理、准确且高效的解决方案,且成本低廉。对34个不同现实世界数据集的全面评估表明,揭示模板对于从模板化文档中提取数据至关重要。TWIX平均实现了超过90%的精确率和召回率,优于行业工具如Textract和Azure Document Intelligence,以及基于视觉的大规模语言模型如GPT-4-Vision,在精确率和召回率上高出25%以上。TWIX可以轻松扩展到大型数据集,并且在从包含817页的大型文档集合中提取数据时,比基于视觉的大规模语言模型快734倍,成本低5836倍。
- 图表
- 解决问题论文试图解决从复杂布局的模板化文档中高效、准确地提取数据的问题。当前的数据提取工具在处理复杂布局时表现不佳,且在大规模数据集上存在高延迟和高成本的问题,同时需要大量的人力投入。这是一个实际应用中的常见问题,尤其是在需要处理大量结构化文档(如发票、合同等)的场景。
- 关键思路TWIX的关键思路是通过预测生成这些文档的底层模板,利用文档之间的视觉和结构上的共性来提高数据提取的准确性和效率。相比现有工具,TWIX通过建模模板的共同特征,提供了一种更系统化的方法,从而显著提高了数据提取的性能,并降低了成本。
- 其它亮点TWIX在34个真实世界的多样化数据集上进行了全面评估,结果显示其平均精度和召回率超过90%,比行业工具(如Textract和Azure Document Intelligence)以及基于视觉的大型语言模型(如GPT-4-Vision)高出25%以上。此外,TWIX在处理大规模文档集合时表现出色,速度比基于视觉的LLM快734倍,成本低5836倍。该研究还强调了模板识别对于从模板化文档中提取数据的重要性。论文中并未提及代码是否开源,但其提出的模板预测方法值得进一步研究和应用。
- 近年来,关于文档理解的研究逐渐增多,相关工作包括: 1.《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》 2.《DocFormer: Transformers with Local and Global Attention for Long Document Understanding》 3.《Donut: Document Understanding Transformer》 4.《FormParser: A Unified Approach to Form Understanding via Implicit Structure Learning》 这些研究主要集中在使用深度学习模型进行文档图像理解和表格解析,而TWIX则专注于通过模板预测来改进数据提取的效率和准确性。
沙发等你来抢
去评论
评论
沙发等你来抢