- 简介文档视觉问答(DocVQA)系统能够回答来自文档的问题,具有广泛的应用。现有的方法主要集中在使用多模态语言模型(MLMs)处理单页文档,或者依赖于基于文本检索的生成模型(RAG),后者使用诸如光学字符识别(OCR)等文本提取工具。然而,在实际应用中,这些方法存在一些困难:(a) 问题往往需要跨不同页面或文档的信息,而多模态语言模型无法处理长文档;(b) 文档中经常包含重要的视觉元素,如图表,但文本提取工具会忽略这些信息。我们提出了M3DocRAG,这是一种新颖的多模态RAG框架,能够灵活适应各种文档上下文(封闭域和开放域)、问题类型(单跳和多跳),以及证据模态(文本、图表、图像等)。M3DocRAG通过多模态检索器和多模态语言模型来查找相关文档并回答问题,从而能够高效处理单个或多个文档,同时保留视觉信息。由于以前的DocVQA数据集通常在特定文档的背景下提问,我们还推出了M3DocVQA,这是一个新的基准,用于评估涵盖3000多个PDF文档、超过40000页的开放域DocVQA。在三个基准测试(M3DocVQA、MMLongBench-Doc、MP-DocVQA)中,实证结果表明,M3DocRAG结合ColPali和Qwen2-VL 7B在性能上优于许多强大的基线模型,包括在MP-DocVQA中的最新表现。我们提供了不同索引、多模态语言模型和检索模型的全面分析。最后,我们定性地展示了M3DocRAG能够成功处理各种场景,例如相关信息分布在多个页面上,或答案证据仅存在于图像中。
- 图表
- 解决问题该论文旨在解决现有文档视觉问答系统在处理多页或多文档信息需求时的局限性,以及在处理包含重要视觉元素(如图表和图像)的文档时的不足。这些问题在实际应用中尤为突出,因为现实世界的文档往往包含跨页面的信息和丰富的视觉内容。
- 关键思路论文提出了一种名为M3DocRAG的新型多模态检索增强生成框架,该框架能够灵活地适应不同的文档上下文(封闭域和开放域)、问题类型(单跳和多跳)和证据模态(文本、图表、图像等)。通过结合多模态检索器和多模态语言模型(MLM),M3DocRAG能够高效处理单个或多个文档,并保留视觉信息。
- 其它亮点1. 提出了M3DocVQA,一个新的开放域文档视觉问答基准,包含3000多篇PDF文档和40000多页内容。 2. 在三个基准测试(M3DocVQA、MMLongBench-Doc、MP-DocVQA)中,M3DocRAG展示了优于许多强基线模型的性能,特别是在MP-DocVQA中达到了最先进的水平。 3. 进行了全面的分析,包括不同索引方法、MLM和检索模型的比较。 4. 通过定性分析展示了M3DocRAG在处理跨页面信息和图像证据方面的有效性。 5. 论文提供了开源代码,便于复现和进一步研究。
- 1. "LayoutLMv2: Multi-Modal Pre-training for Visually-Rich Document Understanding" 2. "DocFormer: Transformers for Heterogeneous Information Extraction from Documents" 3. "ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision" 4. "M6: A Large-Scale Pre-trained Model for Multi-Modal Understanding and Generation" 5. "UniVL: A Unified Video and Language Pre-training Model"
沙发等你来抢
去评论
评论
沙发等你来抢