XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser

简介

在文档AI领域，半结构化表单解析起着至关重要的作用。该任务利用关键信息提取（KIE）技术，处理从纯文本到包括图像和结构布局在内的复杂模态数据的输入。预训练的多模态模型的出现推动了从PDF和图像等不同格式的表单文档中提取关键信息的发展。然而，表单解析的努力仍然面临着显著的挑战，比如多语言解析能力不足和在文本和视觉丰富的环境下召回率降低等。在这项工作中，我们介绍了一个简单但有效的多模态和多语言半结构化表单解析器（XFormParser），它基于一个全面的预训练语言模型，并创新地将语义实体识别（SER）和关系提取（RE）融合到一个统一的框架中，采用了一种新颖的分阶段热身训练方法，利用软标签显著提高了表单解析的准确性，而不会增加推理开销。此外，我们还开发了一个创新性的基准数据集，名为InDFormBench，专门满足各种工业环境下多语言表单解析的需求。通过在已建立的多语言基准测试和InDFormBench上进行严格的测试，XFormParser展示了其无与伦比的效能，在语言特定的设置中RE任务方面的F1得分提高了高达1.79％，明显超过了最先进的模型。与现有的最先进基准相比，我们的框架在多语言和零样本上的任务表现都有了显着的提高。该代码公开可用于https://github.com/zhbuaa0/layoutlmft。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

论文介绍了一个简单而有效的多模态、多语言半结构化表单解析器XFormParser，旨在解决表单解析中多语言解析和文本/视觉丰富的情境下的低召回率等问题。

关键思路

XFormParser将预训练语言模型与语义实体识别（SER）和关系抽取（RE）相结合，采用分阶段热身训练方法和软标签来提高表单解析准确性。

其它亮点

论文开发了一个基准数据集InDFormBench，用于多语言表单解析需求。XFormParser在现有SOTA基准测试中表现优异，在语言特定设置中的RE任务中，F1分数提高了1.79％。该框架在多语言和零样本上表现出了显着提高的性能。代码公开可用。

XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser

提问交流

提问交流