ColPali: Efficient Document Retrieval with Vision Language Models

简介

这段摘要介绍了文档是通过文本、表格、图像、页面布局或字体等视觉丰富的结构来传达信息的。虽然现代文档检索系统在查询到文本匹配方面表现出色，但它们在有效利用视觉线索方面存在困难，从而影响了它们在实际文档检索应用中的性能，如检索增强生成。为了对视觉丰富的文档检索进行基准测试，作者介绍了Visual Document Retrieval Benchmark ViDoRe，它由跨多个领域、语言和设置的各种页面级检索任务组成。现代系统的固有缺点促使引入一种新的检索模型架构ColPali，它利用最近的视觉语言模型的文档理解能力，仅从文档页面的图像中产生高质量的上下文嵌入。结合晚期交互匹配机制，ColPali在很大程度上优于现代文档检索管道，同时速度更快，可进行端到端的训练。
解决问题

本论文旨在解决现有文档检索系统无法高效利用视觉线索的问题，提出了一种新的检索模型 ColPali，通过图像生成文档的上下文化嵌入，从而提高文档检索的效率。
关键思路

ColPali 模型利用最近的视觉语言模型，仅从文档页面的图像中生成高质量的上下文化嵌入，并与后期交互匹配机制相结合，从而在速度和性能方面大大优于现代文档检索管道。
其它亮点

论文引入了视觉文档检索基准 ViDoRe，包括多个跨多个领域、语言和设置的页面级检索任务。ColPali 模型在多个数据集上进行了实验，并证明了其高效性和优越性能。论文提出的模型速度更快，可端到端训练。
相关研究

相关研究包括基于文本的检索模型、基于图像的检索模型和联合文本图像检索模型。其中一些研究包括：《End-to-End Learning of Deep Visual Representations for Image Retrieval》、《Learning Deep Structure-Preserving Image-Text Embeddings》、《A Dual-Stream Interactive Attention Model for Retrieval-Based Question Answering》等。

ColPali: Efficient Document Retrieval with Vision Language Models

评论