A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

2024年07月02日
  • 简介
    最近,许多研究表明,将OCR生成的文本和空间布局与大型语言模型(LLMs)完全结合可以高效地完成文档理解任务。然而,现有的将空间布局与文本集成的方法存在一些限制,例如产生过长的文本序列或未能充分利用LLMs的自回归特性。在本研究中,我们介绍了一种名为LayTextLLM的大型语言模型中的布局和文本交织方法,用于文档理解。特别地,LayTextLLM将每个边界框投影到一个单一的嵌入中,并与文本交织在一起,有效避免了长序列问题,同时利用了LLMs的自回归特性。LayTextLLM不仅简化了布局和文本数据的交互,而且在关键信息提取(KIE)和视觉问答(VQA)方面表现出了更好的性能。全面的基准评估显示出显著的改进,与先前最先进的文档理解MLLM相比,在KIE任务上提高了27.0%,在VQA任务上提高了24.1%,并且在KIE任务上比其他先进的基于OCR的LLMs提高了15.5%。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决文档理解任务中现有方法的局限性,如产生过长的文本序列或未充分利用LLMs的自回归特性等问题。具体地,论文提出了一种名为LayTextLLM的方法,通过将每个边界框投影到单个嵌入中并与文本交错,高效避免了长序列问题,同时利用了LLMs的自回归特性。
  • 关键思路
    LayTextLLM将文本和空间布局相互交织,并通过将每个边界框投影到单个嵌入中来避免过长的序列问题,同时利用LLMs的自回归特性。相比于现有的文档理解方法,该方法在关键信息提取和视觉问答任务中表现出更好的性能。
  • 其它亮点
    该方法在关键信息提取和视觉问答任务中表现出更好的性能,分别比现有文档理解MLLMs的最新技术水平提高了27.0%和24.1%,比其他OCR-based LLMs在关键信息提取任务上提高了15.5%。实验使用了广泛的基准测试数据集,并且代码已经开源。
  • 相关研究
    最近的相关研究包括:《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》、《DocStruct: A Large-Scale Document Understanding Dataset for Document Structure Extraction and Visual Question Answering》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问