A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

向作者提问

NEW

简介

最近，许多研究表明，将OCR生成的文本和空间布局与大型语言模型（LLMs）完全结合可以高效地完成文档理解任务。然而，现有的将空间布局与文本集成的方法存在一些限制，例如产生过长的文本序列或未能充分利用LLMs的自回归特性。在本研究中，我们介绍了一种名为LayTextLLM的大型语言模型中的布局和文本交织方法，用于文档理解。特别地，LayTextLLM将每个边界框投影到一个单一的嵌入中，并与文本交织在一起，有效避免了长序列问题，同时利用了LLMs的自回归特性。LayTextLLM不仅简化了布局和文本数据的交互，而且在关键信息提取（KIE）和视觉问答（VQA）方面表现出了更好的性能。全面的基准评估显示出显著的改进，与先前最先进的文档理解MLLM相比，在KIE任务上提高了27.0％，在VQA任务上提高了24.1％，并且在KIE任务上比其他先进的基于OCR的LLMs提高了15.5％。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决文档理解任务中现有方法的局限性，如产生过长的文本序列或未充分利用LLMs的自回归特性等问题。具体地，论文提出了一种名为LayTextLLM的方法，通过将每个边界框投影到单个嵌入中并与文本交错，高效避免了长序列问题，同时利用了LLMs的自回归特性。
关键思路

LayTextLLM将文本和空间布局相互交织，并通过将每个边界框投影到单个嵌入中来避免过长的序列问题，同时利用LLMs的自回归特性。相比于现有的文档理解方法，该方法在关键信息提取和视觉问答任务中表现出更好的性能。
其它亮点

该方法在关键信息提取和视觉问答任务中表现出更好的性能，分别比现有文档理解MLLMs的最新技术水平提高了27.0％和24.1％，比其他OCR-based LLMs在关键信息提取任务上提高了15.5％。实验使用了广泛的基准测试数据集，并且代码已经开源。
相关研究

最近的相关研究包括：《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》、《DocStruct: A Large-Scale Document Understanding Dataset for Document Structure Extraction and Visual Question Answering》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问