- 简介我们在构建长上下文多语言文本检索模型(TRM)和重新排序器方面进行了系统的努力。我们首先介绍了一个文本编码器(基本大小),其中包含RoPE和去填充增强,以本地8192令牌上下文(比以前的多语言编码器的512更长)进行预训练。然后,我们通过对比学习构建了混合TRM和交叉编码器重新排序器。评估结果显示,我们的文本编码器的性能优于同样大小的先前最先进的XLM-R。同时,我们的TRM和重新排序器与大型最先进的BGE-M3模型的性能相匹配,并在长上下文检索基准测试中取得更好的结果。进一步的分析表明,我们提出的模型在训练和推理过程中表现出更高的效率。我们相信它们的效率和有效性可以惠及各种研究和工业应用。
- 图表
- 解决问题本文旨在构建一个长上下文多语言文本表示模型(TRM)和重新排序器,以提高文本检索的性能。文章是否解决了一个新问题?
- 关键思路本文提出了一个基于对比学习的混合TRM和交叉编码器重新排序器的方案,通过RoPE和unpadding增强了文本编码器的基本大小,并在本地8192标记上进行了预训练。
- 其它亮点本文的文本编码器在效果上优于同等大小的现有最先进的XLM-R模型。同时,本文的TRM和重新排序器与大型最先进的BGE-M3模型的性能相当,并在长上下文检索基准测试中取得了更好的结果。本文的方案在训练和推理期间都表现出更高的效率。值得注意的是,本文使用了哪些数据集?是否开源了代码?哪些工作值得进一步研究?
- 在这个领域中,最近的相关研究包括XLM-R和BGE-M3。
沙发等你来抢
去评论
评论
沙发等你来抢