ACORN: Performant and Predicate-Agnostic Search Over Vector Embeddings and Structured Data

Liana Patel ,
Peter Kraft ,
Carlos Guestrin ,
Matei Zaharia
493
热度
2024年03月07日
  • 简介
    越来越多的应用程序利用混合模态数据,必须同时搜索向量数据,如嵌入式图像、文本和视频,以及结构化数据,如属性和关键字。针对这种混合搜索设置,现有的方法要么性能较差,要么仅支持一组严格受限的搜索谓词(例如,仅支持小型等式谓词集),这使得它们在许多应用程序中都不实用。为了解决这个问题,我们提出了ACORN,这是一种高效的、谓词不可知的混合搜索方法。ACORN基于Hierarchical Navigable Small Worlds(HNSW),这是一种最先进的基于图的近似最近邻索引,并且可以通过扩展现有的HNSW库来实现高效的搜索。ACORN引入了谓词子图遍历的思想,以模拟理论上理想但不切实际的混合搜索策略。ACORN的谓词不可知构造算法旨在支持这种有效的搜索策略,同时支持各种谓词集和查询语义。我们在之前的基准数据集上对ACORN进行了系统评估,这些数据集具有简单、低基数的谓词集,以及之前的方法不支持的复杂多模态数据集。我们展示了ACORN在所有数据集上均实现了最先进的性能,在固定召回率下比之前的方法具有2-1000倍的更高吞吐量。
  • 图表
  • 解决问题
    ACORN论文试图解决混合模态数据的高效搜索问题,支持广泛的谓词集和查询语义。
  • 关键思路
    ACORN利用层次导航小世界(HNSW)图形的近似最近邻索引,引入谓词子图遍历的思想,以模拟理论上理想但实际上不可行的混合搜索策略,从而实现高效的谓词不可知的混合搜索。
  • 其它亮点
    ACORN在多个基准数据集上进行系统评估,表明其在所有数据集上均实现了最先进的性能,比先前方法在固定召回率下的吞吐量高2-1000倍。ACORN的构造算法旨在支持广泛的谓词集和查询语义。
  • 相关研究
    最近在这个领域中,也有一些相关的研究,如谷歌的SEAL和Facebook的Faiss。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论