COS-Mix: Cosine Similarity and Distance Fusion for Improved Information Retrieval

2024年06月02日
  • 简介
    这项研究提出了一种新的混合检索策略,用于检索增强生成(Retrieval-Augmented Generation,RAG),将余弦相似度和余弦距离度量相结合,以提高检索性能,特别是对于稀疏数据。传统的余弦相似度度量广泛用于捕捉高维空间中向量之间的相似性。然而,研究表明,在某些情况下,该度量可以产生任意的结果。为了解决这个限制,我们加入了余弦距离度量,以提供一种补充视角,通过量化向量之间的不相似性。与最近使用开源数据集的出版物不同,我们的方法在专有数据上进行了实验。所提出的方法展示了增强的检索性能,并提供了更全面的文档或项之间语义关系的理解。这种混合策略为在知识密集型应用中高效准确地检索相关信息提供了一个有前途的解决方案,利用BM25(稀疏)检索、向量(密集)检索和基于余弦距离的检索等技术,以促进高效的信息检索。
  • 图表
  • 解决问题
    本文旨在提出一种新的检索策略,以整合余弦相似度和余弦距离度量,改善检索性能,特别是针对稀疏数据。同时,通过量化向量之间的差异性,引入余弦距离度量以提供补充视角,以解决传统余弦相似度度量在某些情况下产生任意结果的局限性。
  • 关键思路
    本文提出的混合检索策略在专有数据上进行实验,证明了其具有更好的检索性能,并提供了更全面的语义关系理解。该策略可以有效地检索相关信息,是一种有前途的解决方案。
  • 其它亮点
    本文的实验使用了专有数据,并且相比于当前领域的研究,提出了一种新的混合检索策略,证明了其具有更好的检索性能。本文的方法可以结合BM25(稀疏)检索、向量(稠密)检索和余弦距离检索等技术,以实现高效的信息检索。
  • 相关研究
    近期在这个领域中,还有一些相关的研究被进行。例如:《Retrieval-Augmented Generation for Knowledge-Intensive Tasks》、《A Hybrid Retrieval-Generation Approach for Domain-Specific Knowledge Base Question Answering》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论