Relevance Filtering for Embedding-based Retrieval

2024年08月09日
  • 简介
    在基于嵌入的检索中,近似最近邻搜索(ANN)可以高效地从大规模数据集中检索相似的项目。虽然最大化相关项目的召回率通常是检索系统的目标,但低精度可能会导致搜索体验不佳。与词汇检索不同,通过ANN搜索的密集检索没有自然的截止点,而且嵌入向量的余弦相似度分数通常通过对比或排名损失进行优化,使它们难以解释。因此,仅依赖于前K个或余弦相似度截止点通常不足以有效地过滤掉不相关的结果。这个问题在产品搜索中很突出,因为相关产品的数量通常很少。本文介绍了一种新的关联性过滤组件(称为“余弦适配器”)用于基于嵌入的检索,以解决这个挑战。我们的方法使用一个查询相关的映射函数将原始余弦相似度分数映射到可解释的分数。然后,我们对映射后的分数应用全局阈值来过滤掉不相关的结果。我们能够显著提高检索集的精度,但牺牲一点召回率。我们的方法在公共MS MARCO数据集和内部沃尔玛产品搜索数据上进行了实验,证明了其有效性。此外,在沃尔玛网站上进行的在线A/B测试验证了我们的方法在实际电子商务环境中的实用价值。
  • 作者讲解
  • 图表
  • 解决问题
    提高基于嵌入式检索的精度
  • 关键思路
    使用基于查询的映射函数将余弦相似度分数映射到可解释的分数,并在映射分数上应用全局阈值来过滤不相关的结果。
  • 其它亮点
    引入了一种新的相关性过滤组件(称为“余弦适配器”)来提高基于嵌入式检索的精度,实验证明该方法在公共数据集和Walmart产品搜索数据上都非常有效,同时在Walmart网站上进行的在线A / B测试验证了该方法在实际的电子商务环境中的实用价值。
  • 相关研究
    最近的相关研究包括基于嵌入式检索的其他精度改进方法,例如加权余弦相似度和基于概率的相关性过滤方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问