mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval

简介

我们在构建长上下文多语言文本检索模型（TRM）和重新排序器方面进行了系统的努力。我们首先介绍了一个文本编码器（基本大小），其中包含RoPE和去填充增强，以本地8192令牌上下文（比以前的多语言编码器的512更长）进行预训练。然后，我们通过对比学习构建了混合TRM和交叉编码器重新排序器。评估结果显示，我们的文本编码器的性能优于同样大小的先前最先进的XLM-R。同时，我们的TRM和重新排序器与大型最先进的BGE-M3模型的性能相匹配，并在长上下文检索基准测试中取得更好的结果。进一步的分析表明，我们提出的模型在训练和推理过程中表现出更高的效率。我们相信它们的效率和有效性可以惠及各种研究和工业应用。
图表
解决问题

本文旨在构建一个长上下文多语言文本表示模型（TRM）和重新排序器，以提高文本检索的性能。文章是否解决了一个新问题？
关键思路

本文提出了一个基于对比学习的混合TRM和交叉编码器重新排序器的方案，通过RoPE和unpadding增强了文本编码器的基本大小，并在本地8192标记上进行了预训练。
其它亮点

本文的文本编码器在效果上优于同等大小的现有最先进的XLM-R模型。同时，本文的TRM和重新排序器与大型最先进的BGE-M3模型的性能相当，并在长上下文检索基准测试中取得了更好的结果。本文的方案在训练和推理期间都表现出更高的效率。值得注意的是，本文使用了哪些数据集？是否开源了代码？哪些工作值得进一步研究？
相关研究

在这个领域中，最近的相关研究包括XLM-R和BGE-M3。

mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval

评论