mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

向作者提问

NEW

简介

本文强调了结构信息对于理解文本丰富的图像（如文档、表格和图表）至关重要。现有的视觉文档理解的多模态大语言模型（MLLMs）具备文本识别能力，但缺乏对于文本丰富的文档图像的一般结构理解能力。因此，本文提出了统一结构学习方法，以提高MLLMs的性能。本文的统一结构学习包括结构感知的解析任务和跨5个领域的多粒度文本定位任务：文档、网页、表格、图表和自然图像。为了更好地编码结构信息，本文设计了一个简单有效的视觉到文本模块H-Reducer，它不仅可以保持布局信息，而且通过卷积合并水平相邻的补丁来减少视觉特征的长度，使LLM能够更有效地理解高分辨率图像。此外，通过构建结构感知的文本序列和多粒度的文本和边界框对于公开可用的文本丰富图像，我们构建了一个全面的训练集DocStruct4M来支持结构学习。最后，我们构建了一个小而高质量的推理微调数据集DocReason25K，以触发文档领域的详细解释能力。我们的模型DocOwl 1.5在10个视觉文档理解基准测试中实现了最先进的性能，将MLLM的SOTA性能提高了超过10个百分点，其中5个基准测试提高了10个百分点以上。我们的代码、模型和数据集可在https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5 上公开获取。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在提高多模态大型语言模型（MLLMs）在视觉文档理解方面的性能，特别是在结构理解方面的能力不足的情况下。为此，论文提出了统一结构学习方法，包括结构感知的解析任务和多粒度文本定位任务，以及构建了一个综合的训练集DocStruct4M和一个推理调整数据集DocReason25K。
关键思路

论文的关键思路是通过设计一个简单而有效的视觉到文本模块H-Reducer来更好地编码结构信息，同时构建结构感知的文本序列和多粒度文本和边界框对，以支持结构学习。此外，论文还使用了统一结构学习方法，通过在5个领域的公开文本丰富图像上进行实验，提高了MLLMs在视觉文档理解方面的性能。
其它亮点

论文的亮点包括：1. 提出了一个统一结构学习的方法，通过结构感知的解析任务和多粒度文本定位任务，提高MLLMs在视觉文档理解方面的性能。2. 设计了一个简单而有效的视觉到文本模块H-Reducer，以更好地编码结构信息。3. 构建了一个综合的训练集DocStruct4M和一个推理调整数据集DocReason25K，以支持结构学习。4. 在10个视觉文档理解基准测试中，DocOwl 1.5的性能超过了现有的7B LLM模型，其中5个基准测试的性能提高了10个百分点以上。论文的代码、模型和数据集都是公开可用的。
相关研究

最近在这个领域中，还有一些相关的研究，例如：1. Yuan等人在《UnivLayout: A Unified Layout Learning Approach for Multi-Page Document Analysis》中提出了一种统一布局学习方法，以提高多页文档分析的性能。2. Li等人在《Towards Comprehensive Text Recognition in Natural Images》中提出了一种综合的文本识别方法，以提高自然图像中的文本识别性能。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问