VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

简介

检索增强生成（RAG）是一种有效的技术，使大型语言模型（LLMs）能够利用外部知识源进行生成。然而，目前的RAG系统仅基于文本，无法利用在现实世界的多模态文档中发挥关键作用的布局和图像等视觉信息。本文介绍了VisRAG，它通过建立基于视觉语言模型（VLM）的RAG管道来解决这个问题。在这个管道中，文档不是先解析以获取文本，而是直接使用VLM作为图像进行嵌入，然后进行检索以增强VLM的生成。与传统的基于文本的RAG相比，VisRAG最大化了原始文档中数据信息的保留和利用，消除了解析过程中引入的信息丢失。我们收集了开源和合成数据来训练VisRAG中的检索器，并探索了各种生成方法。实验表明，VisRAG在检索和生成阶段都优于传统的RAG，相比传统的基于文本的RAG管道，实现了25-39％的端到端性能提升。进一步的分析表明，VisRAG在利用训练数据方面非常有效，并展示了强大的泛化能力，使其成为多模态文档上RAG的有前途的解决方案。我们的代码和数据可在 https://github.com/openbmb/visrag 上获得。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本论文旨在解决当前基于文本的Retrieval-augmented generation (RAG)系统无法利用布局和图像等视觉信息的问题，提出了一种基于视觉语言模型的RAG系统VisRAG。
关键思路

VisRAG系统通过直接将文档作为图像嵌入视觉语言模型中，而非先解析文本，从而最大限度地保留和利用原始文档中的数据信息，消除解析过程中引入的信息损失。VisRAG在检索和生成阶段均优于传统的基于文本的RAG系统。
其它亮点

论文使用了开源数据和合成数据来训练检索器，并探索了多种生成方法。实验结果表明，VisRAG在检索和生成阶段都优于传统的基于文本的RAG系统，实现了25-39%的端到端性能提升。VisRAG还具有强大的泛化能力，是一种有前途的多模态文档RAG解决方案。论文提供了代码和数据集。
相关研究

近期相关研究包括基于视觉信息的文本生成和检索，以及使用多模态信息进行生成和检索的研究。

VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

提问交流

提问交流