- 简介文本嵌入模型在信息检索应用中广受欢迎,例如基于检索增强生成(Retrieval-Augmented Generation,RAG)的语义搜索和问答系统。这些模型通常是经过对比学习目标微调的Transformer模型。许多论文介绍了新的嵌入模型架构和训练方法,然而,其中一个关键要素——负面段落挖掘的过程,仍然鲜有研究或描述。微调嵌入模型的一个具有挑战性的方面是选择高质量的难负面段落进行对比学习。在本文中,我们提出了一系列基于正相关性得分的正向感知挖掘方法,以更有效地去除假阴性。我们还对不同的教师和基础模型的难负面挖掘方法及其配置进行了全面的消融研究。我们通过引入NV-Retriever-v1模型来展示我们提出的方法的有效性,该模型在MTEB Retrieval(BEIR)基准测试中得分为60.9,比以前的方法高0.65分。该模型在2024年7月7日发布到MTEB Retrieval时排名第一。
-
- 图表
- 解决问题本论文旨在解决文本嵌入模型中的负样本挖掘问题,提出了一系列基于正样本相关性分数的挖掘方法,以更有效地去除假负样本。
- 关键思路论文提出了一系列正样本感知型挖掘方法,利用正样本相关性分数更有效地去除负样本,提出了NV-Retriever-v1模型,取得了比以前更好的效果。
- 其它亮点论文通过全面的消融实验,探索了不同教师模型和基础模型的硬负样本挖掘方法的配置,提出的正样本感知型挖掘方法在BEIR数据集上取得了较好的效果。此外,NV-Retriever-v1模型在MTEB Retrieval数据集上取得了1st的好成绩。
- 最近的相关研究包括使用Transformer模型进行文本嵌入的研究,以及利用对比学习目标对模型进行微调的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流