A LayoutLMv3-Based Model for Enhanced Relation Extraction in Visually-Rich Documents

简介

文档理解是自然语言处理中一个不断发展的领域。特别是在视觉和空间特征方面，除了原始文本本身之外，这些特征是必不可少的，因此，在视觉文档理解领域中开发了几种多模型。然而，虽然研究主要集中在关键信息提取（KIE）上，但已识别实体之间的关系提取（RE）仍未得到充分研究。例如，RE对于重新组合实体或在文档中获得全面的数据层次结构至关重要。在本文中，我们提出了一种模型，该模型从LayoutLMv3初始化，可以在FUNSD和CORD数据集上应用于视觉丰富文档（VRD）的RE中匹配或超越当前最先进的结果，而无需任何特定的预训练和更少的参数。我们还在FUNSD上进行了广泛的消融研究，突出了某些特征和建模选择对性能的巨大影响。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决文档理解中关系抽取(RE)的问题，尤其是在视觉丰富的文档中，探索使用LayoutLMv3模型进行关系抽取的效果。
关键思路

本论文提出了一种基于LayoutLMv3模型的关系抽取方法，该方法不需要特定的预训练，且参数较少，可以在FUNSD和CORD数据集上匹配或超越当前最先进的结果。
其它亮点

论文设计了大量实验来验证模型的有效性，表明了某些特定特征和建模选择对性能的重大影响。同时，论文还开源了代码，为后续的研究提供了便利。
相关研究

最近在文档理解领域，相关研究主要集中在关键信息提取(KIE)上，而关系抽取(RE)仍然是一个相对较少研究的问题。相关论文包括：《A Survey on Relation Extraction》、《Neural Relation Extraction with Selective Attention over Instances》等。

A LayoutLMv3-Based Model for Enhanced Relation Extraction in Visually-Rich Documents

提问交流

提问交流