Curator: Efficient Vector Search with Low-Selectivity Filters

2026年01月03日
  • 简介
    基于嵌入的稠密检索已成为许多关键应用的核心技术,其中近似最近邻搜索(ANNS)查询通常需结合标签过滤条件(如日期、价格区间等)共同执行。基于图的索引在无过滤的ANNS任务中表现出色,达到当前最优水平;但在低选择率的过滤查询中却面临连通性崩溃的问题——符合条件的向量变得稀疏,其间的图结构也随之断裂。近期研究提出通过扩大图节点度数来解决该问题的专用图索引,但这会导致构建成本过高而难以承受。鉴于基于图的方法存在这些固有局限,我们认为应采用双索引架构,并提出了Curator:一种基于分区的索引方法,可与现有的图索引方案协同工作,专门应对低选择率场景下的过滤ANNS。Curator在一个共享的聚类树结构内,为不同标签构建专用索引,每个索引能够根据其对应合格向量的分布特点自适应调整,以确保高效检索,同时通过共享整体结构来最小化内存开销。该系统还支持增量更新,并能通过动态高效地构建临时索引,处理超出单一标签过滤的任意复杂谓词条件。我们的实验评估表明,将Curator与当前最先进的图索引结合使用后,相比预过滤回退策略,低选择率查询的延迟最高可降低20.9倍,而索引构建时间和内存占用仅分别增加5.5%和4.3%。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在嵌入式密集检索中,图索引在低选择性过滤查询(如结合日期、价格范围等标签过滤的最近邻搜索)下性能急剧下降的问题。由于符合条件的向量稀疏且图结构断裂,传统图索引难以高效检索。这虽非全新问题,但随着多模态检索和复杂过滤需求增长,其重要性日益凸显。
  • 关键思路
    提出双索引架构Curator,放弃仅依赖高连通性图索引的思路,转而构建基于聚类树的分区索引系统。该系统为不同标签构建共享结构的专用索引,自适应稀疏分布,并支持复杂谓词的临时索引构建,从而弥补图索引在低选择性场景下的不足。相比单纯扩展图度数的方法,Curator在效率与成本间取得更好平衡。
  • 其它亮点
    实验显示,将Curator与现有图索引结合,可使低选择性查询延迟降低高达20.9倍,相较预过滤回退策略显著提升性能,而构建时间和内存开销仅增加5.5%和4.3%。系统支持增量更新和动态复杂谓词处理。论文强调实际部署中的效率与灵活性,但未明确提及是否开源代码。未来方向包括扩展至更高维数据和更复杂的联合过滤场景。
  • 相关研究
    1. DiskANN: Fast Accurate Billion-Point Nearest Neighbor Search on a Single PC 2. SPTAG: An Efficient Approximate Nearest Neighbor Search Algorithm Based on Sorted Projections 3. NSG: Navigating Sparsity for Robust Approximate Nearest Neighbor Search 4. Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs (HNSW) 5. Multi-Probe Locality Sensitive Hashing for Large Scale Image Search
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问