A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

Jinghui Lu ,
Haiyang Yu ,
Yanjie Wang ,
Yongjie Ye ,
Jingqun Tang ,
Ziwei Yang ,
Binghong Wu ,
Qi Liu ,
Hao Feng ,
Han Wang ,
Hao Liu ,
Can Huang
2024年07月02日
  • 简介
    最近,许多研究表明,仅使用OCR生成的文本和空间布局与大型语言模型(LLM)结合可以高效地完成文档理解任务。然而,现有的将空间布局与文本结合的方法存在一些限制,例如产生过长的文本序列或未能充分利用LLM的自回归特性。在本研究中,我们介绍了一种名为LayTextLLM的大型语言模型中的布局和文本交错方法,用于文档理解。具体而言,LayTextLLM将每个边界框投影到单个嵌入中,并将其与文本交错,有效避免了长序列问题,同时利用了LLM的自回归特性。LayTextLLM不仅简化了布局和文本数据的交互,而且在关键信息提取(KIE)和视觉问答(VQA)方面表现出了增强的性能。全面的基准评估显示出显著的改进,与先前最先进的文档理解MLLM相比,在KIE任务上提高了27.2%,在VQA任务上提高了12.0%,并且在KIE任务上比其他SOTA OCR基于LLM的方法提高了15.1%。
  • 图表
  • 解决问题
    本论文旨在解决文档理解中的布局和文本相互作用问题,提出了一种新的方法LayTextLLM,以提高关键信息提取和视觉问答任务的性能。
  • 关键思路
    LayTextLLM将每个边界框投影到一个单独的嵌入中,并将其与文本交错,从而避免了长序列问题,同时利用了LLM的自回归特性。
  • 其它亮点
    论文的实验结果表明,LayTextLLM在关键信息提取和视觉问答任务上的性能均有显著提高,分别比之前的最新文献提高了27.2%和12.0%,比其他OCR-based LLMs提高了15.1%。此外,该论文还开源了代码。
  • 相关研究
    最近的相关研究包括:《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》、《DocVQA: A Dataset for VQA on Document Images》、《OCR-Layout-Text Combined Spatial Transformer for Recognizing Text in Document Images》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论