ColPali: Efficient Document Retrieval with Vision Language Models

Manuel Faysse ,
Hugues Sibille ,
Tony Wu ,
Bilel Omrani ,
Gautier Viaud ,
Céline Hudelot ,
Pierre Colombo
2024年06月27日
  • 简介
    这段摘要介绍了文档是通过文本、表格、图像、页面布局或字体等视觉丰富的结构来传达信息的。虽然现代文档检索系统在查询到文本匹配方面表现出色,但它们在有效利用视觉线索方面存在困难,从而影响了它们在实际文档检索应用中的性能,如检索增强生成。为了对视觉丰富的文档检索进行基准测试,作者介绍了Visual Document Retrieval Benchmark ViDoRe,它由跨多个领域、语言和设置的各种页面级检索任务组成。现代系统的固有缺点促使引入一种新的检索模型架构ColPali,它利用最近的视觉语言模型的文档理解能力,仅从文档页面的图像中产生高质量的上下文嵌入。结合晚期交互匹配机制,ColPali在很大程度上优于现代文档检索管道,同时速度更快,可进行端到端的训练。
  • 解决问题
    本论文旨在解决现有文档检索系统无法高效利用视觉线索的问题,提出了一种新的检索模型 ColPali,通过图像生成文档的上下文化嵌入,从而提高文档检索的效率。
  • 关键思路
    ColPali 模型利用最近的视觉语言模型,仅从文档页面的图像中生成高质量的上下文化嵌入,并与后期交互匹配机制相结合,从而在速度和性能方面大大优于现代文档检索管道。
  • 其它亮点
    论文引入了视觉文档检索基准 ViDoRe,包括多个跨多个领域、语言和设置的页面级检索任务。ColPali 模型在多个数据集上进行了实验,并证明了其高效性和优越性能。论文提出的模型速度更快,可端到端训练。
  • 相关研究
    相关研究包括基于文本的检索模型、基于图像的检索模型和联合文本图像检索模型。其中一些研究包括:《End-to-End Learning of Deep Visual Representations for Image Retrieval》、《Learning Deep Structure-Preserving Image-Text Embeddings》、《A Dual-Stream Interactive Attention Model for Retrieval-Based Question Answering》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论