- 简介最近,利用大型语言模型(LLMs)或多模态大型语言模型(MLLMs)进行文档理解已被证明非常有前途。然而,以往采用LLMs/MLLMs进行文档理解的研究并没有充分探索和利用文档布局信息,而这对于精确的文档理解非常重要。本文提出了一种基于LLM/MLLM的文档理解方法LayoutLLM。LayoutLLM的核心是一种布局指令调整策略,旨在增强对文档布局的理解和利用。所提出的布局指令调整策略包括两个组成部分:布局感知预训练和布局感知监督微调。为了捕捉文档布局的特征,Layout-aware Pre-training引入了三组预训练任务,分别对应于文档级、区域级和段落级信息。此外,还设计了一个名为LayoutCoT的新模块,使LayoutLLM能够聚焦于与问题相关的区域并生成准确的答案。LayoutCoT对于提高文档理解的性能非常有效,同时也带来了一定程度的可解释性,这有助于手动检查和纠正。在标准基准测试中,实验表明所提出的LayoutLLM明显优于采用开源7B LLMs/MLLMs进行文档理解的现有方法。LayoutLLM的训练数据可在以下网址公开获取:https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/LayoutLLM。
-
- 图表
- 解决问题本论文旨在利用大型语言模型(LLMs)或多模态大型语言模型(MLLMs)进行文档理解,并充分利用文档布局信息来提高文档理解的准确性。
- 关键思路LayoutLLM是一种基于LLMs / MLLMs的文档理解方法,其核心是一种布局指令调整策略,旨在增强文档布局的理解和利用。LayoutLLM包括两个组成部分:布局感知预训练和布局感知监督微调。同时,引入了三组预训练任务,以捕捉文档布局的特征。
- 其它亮点LayoutLLM的亮点包括:使用布局感知预训练和布局感知监督微调来增强文档布局的理解和利用;设计了一个名为LayoutCoT的模块,使LayoutLLM能够专注于与问题相关的区域并生成准确的答案;在标准基准测试中,LayoutLLM明显优于现有方法。同时,作者公开了LayoutLLM的训练数据和代码。
- 最近的相关研究包括:使用LLMs / MLLMs进行文档理解的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流