- 简介最近,许多研究表明,仅使用OCR生成的文本和空间布局与大型语言模型(LLM)结合可以高效地完成文档理解任务。然而,现有的将空间布局与文本结合的方法存在一些限制,例如产生过长的文本序列或未能充分利用LLM的自回归特性。在本研究中,我们介绍了一种名为LayTextLLM的大型语言模型中的布局和文本交错方法,用于文档理解。具体而言,LayTextLLM将每个边界框投影到单个嵌入中,并将其与文本交错,有效避免了长序列问题,同时利用了LLM的自回归特性。LayTextLLM不仅简化了布局和文本数据的交互,而且在关键信息提取(KIE)和视觉问答(VQA)方面表现出了增强的性能。全面的基准评估显示出显著的改进,与先前最先进的文档理解MLLM相比,在KIE任务上提高了27.2%,在VQA任务上提高了12.0%,并且在KIE任务上比其他SOTA OCR基于LLM的方法提高了15.1%。
-
- 图表
- 解决问题本论文旨在解决文档理解中的布局和文本相互作用问题,提出了一种新的方法LayTextLLM,以提高关键信息提取和视觉问答任务的性能。
- 关键思路LayTextLLM将每个边界框投影到一个单独的嵌入中,并将其与文本交错,从而避免了长序列问题,同时利用了LLM的自回归特性。
- 其它亮点论文的实验结果表明,LayTextLLM在关键信息提取和视觉问答任务上的性能均有显著提高,分别比之前的最新文献提高了27.2%和12.0%,比其他OCR-based LLMs提高了15.1%。此外,该论文还开源了代码。
- 最近的相关研究包括:《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》、《DocVQA: A Dataset for VQA on Document Images》、《OCR-Layout-Text Combined Spatial Transformer for Recognizing Text in Document Images》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流