Scalable Distributed Vector Search via Accuracy Preserving Index Construction

向作者提问

NEW

简介

将近似最近邻搜索（ANNS）扩展到数十亿向量规模，需要构建能够平衡准确性、延迟和吞吐量的分布式索引。然而，现有的索引设计在这一权衡上面临困难。本文提出了SPIRE，一种基于两项关键设计决策的可扩展向量索引。首先，它确定了一种均衡的分区粒度，以避免读取成本的急剧上升；其次，它引入了一种保持准确性的递归构造方法，从而构建出具有可预测搜索代价和稳定准确率的多层索引。在包含多达80亿个向量、跨越46个节点的实验中，SPIRE展现出卓越的可扩展性，并实现了比当前最先进系统最高达9.64倍的吞吐量提升。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决在数十亿规模向量上进行近似最近邻搜索（ANNS）时，分布式索引难以平衡查询准确性、延迟和吞吐量的问题。随着数据规模扩大，现有索引方法容易出现读取成本激增或精度下降的问题。这在大规模向量检索场景中是一个关键且尚未完全解决的挑战。
关键思路

SPIRE提出了两个核心设计：一是选择一种平衡的分区粒度，避免查询时读取开销爆炸；二是引入一种保持精度的递归构造方法，构建多层索引结构，从而实现可预测的搜索成本和稳定的检索精度。相比现有方法，SPIRE在系统层面实现了更好的扩展性与性能-精度权衡，具有明确的架构创新。
其它亮点

实验在高达80亿向量的数据集上进行，使用46个节点的集群，验证了SPIRE的高可扩展性。结果显示其吞吐量最高达到当前最先进系统的9.64倍。实验设计充分覆盖了不同规模和查询负载，但文中未明确提及是否开源代码。未来可进一步探索其在动态更新、异构硬件上的适应性。
相关研究

1. ScaNN: Efficient Vector Similarity Search at Scale 2. FAISS: A Library for Large-Scale Similarity Search 3. LSH-based Approximate Nearest Neighbor Search on Large Datasets 4. Hierarchical Navigable Small World (HNSW) for Dense Vector Retrieval 5. DiskANN: Scalable Vector Search using SSDs and Graph Indexes

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问