Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever

简介

多向量密集模型，例如ColBERT，在信息检索中已经被证明非常有效。ColBERT的后期交互评分近似于交叉编码器中看到的联合查询-文档注意力，同时保持推理效率更接近传统的密集检索模型，这要归功于其双编码器架构和最近在索引和搜索方面的优化。在本文中，我们介绍了几种改进ColBERT模型架构和训练流程的方法，利用在更成熟的单向量嵌入模型范例中成功的技术，特别是适用于异构多语言数据的技术。我们的新模型Jina-ColBERT-v2，在各种英语和多语言检索任务中表现出强大的性能，同时与以前的模型相比，还将存储要求降低了高达50%。
图表
解决问题

本论文旨在通过改进ColBERT模型的架构和训练流程，提高多语言信息检索的效果，并减少存储要求。
关键思路

本文针对多语言信息检索问题，采用了单向量嵌入模型的成功技术，并将其应用于ColBERT模型中，提高了模型的性能。
其它亮点

Jina-ColBERT-v2模型在多个英文和多语言检索任务中表现出了强大的性能，同时将存储要求降低了50%。本文提供了详细的实验设计和数据集信息，并公开了代码。
相关研究

与本文相关的研究包括单向量嵌入模型和其他基于多语言信息检索的研究，例如M2m100和XLM-R。