Retrieval Augmented Structured Generation: Business Document Information Extraction As Tool Use

向作者提问

NEW

简介

本文研究的是商业文件信息提取（BDIE）问题，即将一堆非结构化信息（原始文本、扫描文档等）转化为结构化格式，以便下游系统进行解析和使用。该问题包括两个主要任务：关键信息提取（KIE）和行项识别（LIR）。本文认为，BDIE最好被建模为一个工具使用问题，其中工具是下游系统。因此，本文提出了检索增强结构化生成（RASG）框架，该框架是一个新颖的BDIE通用框架，可以在BDIE基准测试的KIE和LIR任务上实现最先进的结果（SOTA）。本文的贡献有三个方面：（1）通过消融基准测试，我们展示了使用RASG的大型语言模型（LLMs）已经与或优于当前没有使用RASG的最先进的大型多模型模型（LMMs）在BDIE基准测试上的结果。（2）我们提出了一个新的度量类别，通用行项识别度量（GLIRM），与现有的度量标准（如ANLS*，DocILE和GriTS）相比，更符合实际BDIE使用情况。（3）我们提供了一种启发式算法，用于预测行项和表格的边界框的反向计算，而无需使用视觉编码器。最后，我们声称，尽管LMMs有时可能提供微小的性能优势，但在BDIE的实际应用和约束条件下，LLMs + RASG通常是更优的选择。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

将未结构化信息（原始文本、扫描文档等）转换为结构化格式，以便下游系统可以解析和使用，解决BDIE问题，包括关键信息提取和行项目识别。
关键思路

将BDIE建模为工具使用问题，其中工具是下游系统。提出了RASG框架，通过检索增强的结构化生成实现BDIE，并提供了一种启发式算法用于预测行项目和表格的边界框的反向计算。
其它亮点

通过消融实验，证明了具有RASG的LLMs已经与或超过了没有RASG的当前SOTA大型多模型（LMMs）在BDIE基准测试上的表现。提出了一种新的度量类，GLIRM，用于行项目识别，与现有指标（如ANLS*，DocILE和GriTS）相比更符合实际BDIE用例。提供了一种启发式算法，用于预测行项目和表格的边界框的反向计算。
相关研究

最近的相关研究包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问