- 简介本文介绍了DocLLM,这是一种轻量级的大型语言模型(LLMs)扩展,用于处理企业文档,如表格、发票、收据、报告、合同等。这些文档往往在文本和空间模态的交叉处具有丰富的语义。它们复杂的布局提供的视觉线索在有效理解这些文档方面起着至关重要的作用。我们的模型通过避免昂贵的图像编码器,专注于边界框信息,以结合空间布局结构,从而与现有的多模态LLMs不同。具体而言,我们通过将经典变压器中的注意机制分解为一组解耦矩阵,来捕捉文本和空间模态之间的交叉对齐。此外,我们设计了一个预训练目标来学习填充文本段落。这种方法使我们能够处理在视觉文档中经常遇到的不规则布局和异构内容。我们使用一个大规模的指令数据集对预训练模型进行微调,涵盖了四个核心文档智能任务。我们证明我们的解决方案在所有任务的16个数据集中,优于SotA LLMs的14个,并且对5个以前未见过的数据集有很好的泛化能力。
- 图表
- 解决问题本论文旨在解决企业文档中的语义理解问题,特别是在处理文本与空间布局交叉的情况下。同时,论文尝试通过预训练模型和大规模指令数据集的fine-tuning来应对文档智能化处理任务。
- 关键思路论文提出了一种轻量级的模型DocLLM,通过文本和空间布局之间的交叉对齐来实现文档的语义理解,同时避免了昂贵的图像编码器。该模型通过将注意力机制分解为一组独立的矩阵来实现文本和空间模态之间的交叉对齐,同时采用预训练目标来学习填充文本片段的技巧。
- 其它亮点该模型在四个核心文档智能化任务上进行了大规模指令数据集的fine-tuning,并在14个数据集中优于现有的SotA LLMs。此外,该模型还可以处理文档中的不规则布局和异构内容。论文还提供了开源代码和数据集。
- 最近在这个领域中的相关研究包括:《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》、《DocBank: A Benchmark for Document Layout Analysis》、《Form2Seq: A Framework for Generating Sequences from Structured Form Images》等。
沙发等你来抢
去评论
评论
沙发等你来抢