【论文标题】MatchVIE: Exploiting Match Relevancy between Entities for Visual  Information Extraction

【作者团队】Guozhi Tang,Lele Xie,Lianwen Jin,Jiapeng Wang,Jingdong Chen,Zhen Xu,Qianying Wang,Yaqiang Wu,Hui Li

【发表时间】2021/06/24

【机构】华南理工大学、广东人工智能与数据经济实验室、蚂蚁金服、联想研究院

【论文链接】https://arxiv.org/abs/2106.12940

本文出自华南理工大学、广东人工智能与数据经济实验室、蚂蚁金服、联想研究院联合团队,目前已被 IJCAI 2021 接收,作者提出了一种基于图神经网络的键值匹配模型,用于刻画实体间的强相关性,在视觉信息提取任务上取得了目前最优的性能。

视觉信息提取任务(VIE)旨在从各种文档图像(如发票和采购收据)中提取关键信息。现有的方法大多将 VIE 任务简单地看作一个序列标注问题或分类问题,需要模型通过引入字体、颜色、布局等多模态特征精细化地识别各种语义。然而,面对数值语义类别或一些模糊文本时,简单地引入多模态特征是不可能的。

针对这一问题,本文提出了一种基于图神经网络的键-值匹配模型(MatchVIE)。该方法通过基于相关性评价的键值匹配,绕过了对各种语义的识别,只关注实体间的强相关性。此外,本文作者还引入了一种简单而有效的运算 Num2Vec 来解决编码值的不稳定性问题,使模型收敛更加平稳。

实验结果表明,本文提出的 MatchVIE 算法的性能明显优于以往的方法。值得注意的是,据我们所知,MatchVIE 可能是第一次尝试通过建模键和值之间的相关性来处理 VIE 任务,它是对现有方法的一个很好的补充。

图 1:MatchVIE 架构示意图

内容中包含的图片若涉及版权问题,请及时与我们联系删除