- 简介我们研究了通过人工编写的指令在真实世界文档上完成各种视觉文档理解(VDU)任务的问题,例如问答和信息提取。为此,我们提出了InstructDoc,这是第一个包含30个公开可用的VDU数据集的大规模集合,每个数据集都有统一格式的多样化指令,涵盖了12个任务的广泛范围,并包括开放的文档类型/格式。此外,为了增强VDU任务的泛化性能,我们设计了一种新的基于指令的文档阅读和理解模型InstructDr,它通过可训练的桥接模块将文档图像、图像编码器和大型语言模型(LLMs)连接起来。实验表明,InstructDr可以通过给定的指令有效地适应新的VDU数据集、任务和领域,并且在没有特定训练的情况下优于现有的多模式LLMs和ChatGPT。
-
- 图表
- 解决问题本论文旨在通过人类编写的指令,完成各种视觉文档理解任务,例如问答和信息提取。同时,论文提出了InstructDoc,一个包含30个公开可用的VDU数据集的大规模集合,每个数据集都有统一格式的多样化指令,涵盖了12种任务和开放式文档类型/格式。论文还旨在提高VDU任务的泛化性能,设计了一种新的基于指令的文档阅读和理解模型InstructDr,通过可训练的桥接模块连接文档图像、图像编码器和大型语言模型(LLMs)。
- 关键思路论文提出了InstructDoc数据集和InstructDr模型,通过人类编写的指令实现了视觉文档理解任务的自动化,同时提高了泛化性能。
- 其它亮点论文的亮点包括:1. 提出了InstructDoc数据集,包含30个公开可用的VDU数据集,每个数据集都有统一格式的多样化指令,涵盖了12种任务和开放式文档类型/格式;2. 提出了InstructDr模型,通过可训练的桥接模块连接文档图像、图像编码器和大型语言模型(LLMs),可以有效适应新的VDU数据集、任务和领域;3. 实验结果表明,InstructDr模型可以通过给定的指令,优于现有的多模式LLMs和ChatGPT,无需特定训练。
- 最近在这个领域中,还有一些相关的研究,例如:1. TextVQA:通过视觉问答任务来理解文本和图像之间的关系;2. DocVQA:针对文档的问答任务,通过视觉和语言模型来理解文档中的信息。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流