A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

简介

最近，许多研究表明，仅使用OCR生成的文本和空间布局与大型语言模型（LLM）结合可以高效地完成文档理解任务。然而，现有的将空间布局与文本结合的方法存在一些限制，例如产生过长的文本序列或未能充分利用LLM的自回归特性。在本研究中，我们介绍了一种名为LayTextLLM的大型语言模型中的布局和文本交错方法，用于文档理解。具体而言，LayTextLLM将每个边界框投影到单个嵌入中，并将其与文本交错，有效避免了长序列问题，同时利用了LLM的自回归特性。LayTextLLM不仅简化了布局和文本数据的交互，而且在关键信息提取（KIE）和视觉问答（VQA）方面表现出了增强的性能。全面的基准评估显示出显著的改进，与先前最先进的文档理解MLLM相比，在KIE任务上提高了27.2％，在VQA任务上提高了12.0％，并且在KIE任务上比其他SOTA OCR基于LLM的方法提高了15.1％。
图表
解决问题

本论文旨在解决文档理解中的布局和文本相互作用问题，提出了一种新的方法LayTextLLM，以提高关键信息提取和视觉问答任务的性能。
关键思路

LayTextLLM将每个边界框投影到一个单独的嵌入中，并将其与文本交错，从而避免了长序列问题，同时利用了LLM的自回归特性。
其它亮点

论文的实验结果表明，LayTextLLM在关键信息提取和视觉问答任务上的性能均有显著提高，分别比之前的最新文献提高了27.2％和12.0％，比其他OCR-based LLMs提高了15.1％。此外，该论文还开源了代码。
相关研究

最近的相关研究包括：《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》、《DocVQA: A Dataset for VQA on Document Images》、《OCR-Layout-Text Combined Spatial Transformer for Recognizing Text in Document Images》等。

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

评论