论文地址:https://arxiv.org/pdf/2108.04539v5.pdf

文档信息抽取是指从文档图片中提取关键信息的过程,主要包括实体抽取和实体连接两个子任务,分别是指从文档中提取出有实际意义的一组单词从而构成实体,和将语义上同属一组的实体连接起来的过程,是机器人过程自动化的基本任务之一。由于它需要理解文档版面中包含的文本信息,这是一个需要计算机视觉和自然语言处理技术结合的任务。早期的研究没有利用版面信息完成任务,而近期的研究对此进行改进时引入的视觉信息带来了额外的计算成本,并且空间特征和文本特征结合的方式仍不够高效。本文提出了一个对二维空间中文本的相对位置进行编码,并使用区域掩蔽策略利用无标签文档进行无监督学习的预训练语言模型,在不加入视觉特征的情况下,在多个文档关键信息抽取的基准数据集上接近或超越了SOTA模型。

内容中包含的图片若涉及版权问题,请及时与我们联系删除