- 简介将近似最近邻搜索(ANNS)扩展到数十亿向量规模,需要构建能够平衡准确性、延迟和吞吐量的分布式索引。然而,现有的索引设计在这一权衡上面临困难。本文提出了SPIRE,一种基于两项关键设计决策的可扩展向量索引。首先,它确定了一种均衡的分区粒度,以避免读取成本的急剧上升;其次,它引入了一种保持准确性的递归构造方法,从而构建出具有可预测搜索代价和稳定准确率的多层索引。在包含多达80亿个向量、跨越46个节点的实验中,SPIRE展现出卓越的可扩展性,并实现了比当前最先进系统最高达9.64倍的吞吐量提升。
-
- 图表
- 解决问题论文试图解决在数十亿规模向量上进行近似最近邻搜索(ANNS)时,分布式索引难以平衡查询准确性、延迟和吞吐量的问题。随着数据规模扩大,现有索引方法容易出现读取成本激增或精度下降的问题。这在大规模向量检索场景中是一个关键且尚未完全解决的挑战。
- 关键思路SPIRE提出了两个核心设计:一是选择一种平衡的分区粒度,避免查询时读取开销爆炸;二是引入一种保持精度的递归构造方法,构建多层索引结构,从而实现可预测的搜索成本和稳定的检索精度。相比现有方法,SPIRE在系统层面实现了更好的扩展性与性能-精度权衡,具有明确的架构创新。
- 其它亮点实验在高达80亿向量的数据集上进行,使用46个节点的集群,验证了SPIRE的高可扩展性。结果显示其吞吐量最高达到当前最先进系统的9.64倍。实验设计充分覆盖了不同规模和查询负载,但文中未明确提及是否开源代码。未来可进一步探索其在动态更新、异构硬件上的适应性。
- 1. ScaNN: Efficient Vector Similarity Search at Scale 2. FAISS: A Library for Large-Scale Similarity Search 3. LSH-based Approximate Nearest Neighbor Search on Large Datasets 4. Hierarchical Navigable Small World (HNSW) for Dense Vector Retrieval 5. DiskANN: Scalable Vector Search using SSDs and Graph Indexes
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流