- 简介这篇摘要介绍了视觉丰富的文档理解(VRDU)领域,旨在解决多模态领域中众多经过充分研究的自然语言处理任务。已经存在一些数据集用于特定VRDU任务的研究,例如文档分类(DC)、关键实体提取(KEE)、实体链接和视觉问答(VQA)等。这些数据集涵盖了像发票和收据这样的文档,并提供了稀疏注释,以支持一个或两个相关任务(例如实体提取和实体链接)。不幸的是,仅关注单一文档类型或任务并不能代表文档在实际应用中的处理方式,因为实际文档的风格和要求会有所不同。因此,本文介绍了BuDDIE(商业文档信息提取数据集),这是一个包含1,665个真实商业文档的多任务数据集,为DC、KEE和VQA提供了丰富而密集的注释。我们的数据集包括来自美国州政府网站的公开商业实体文档。这些文档结构化,并且在州和类型(例如表格、证书、报告等)之间的风格和布局各不相同。我们提供了BuDDIE的数据多样性和质量度量,以及每个任务的一系列基线。我们的基线涵盖传统的文本、多模态和大语言模型方法,用于VRDU。
-
- 图表
- 解决问题本文旨在解决多模态领域中的文档分类、关键实体提取和视觉问答等多个任务,提出了一个包含密集注释的多任务数据集BuDDIE,以应对真实世界中文档样式和要求的多样性。
- 关键思路本文提出了BuDDIE数据集,包含1,665个真实的商业实体文档,涵盖了多种文档类型和样式,为文档分类、关键实体提取和视觉问答等多个任务提供了密集注释,提供了传统文本、多模态和大型语言模型的基线。
- 其它亮点BuDDIE数据集是第一个为多任务提供密集注释的数据集,可用于文档分类、关键实体提取和视觉问答等多个任务。本文提供了数据集的多样性和质量指标以及每个任务的基线结果。实验结果表明,大型语言模型在多个任务上表现出色。
- 与本文相关的研究包括针对特定任务的数据集,如文档分类、实体链接和视觉问答等,以及多模态领域的其他研究,如图像和文本的联合建模。近期的相关研究包括《DocBank: A Benchmark Dataset for Document Layout Analysis》和《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流