Locally-Adaptive Quantization for Streaming Vector Search

2024年02月03日
  • 简介
    在大量向量的集合中检索与给定查询最相似的向量嵌入向来是无数实际应用的关键组成部分,最近引入的“检索增强生成”就是其中最为突出的例子之一。对于许多这些应用程序,数据库通过插入新数据和删除过时数据而不断发展。在这些情况下,检索问题被称为流式相似性搜索。虽然局部自适应向量量化(LVQ)是一种高效的向量压缩方法,为非演化数据库提供了最先进的搜索性能,但其在流式设置中的实用性尚未得到确定。在本研究中,我们研究了LVQ在流式相似性搜索中的应用。为了支持我们的评估,我们引入了两个LVQ的改进:Turbo LVQ和多均值LVQ,分别将其搜索性能提高了高达28%和27%。我们的研究表明,LVQ及其新变体能够实现快速的向量搜索,对于相同分布的数据,其性能超过最接近的竞争对手高达9.4倍,对于数据分布发生变化的具有挑战性的情况,其性能超过最接近的竞争对手高达8.8倍。我们将我们的贡献作为可扩展向量搜索的一部分发布,这是一个用于高性能相似性搜索的开源库。
  • 图表
  • 解决问题
    研究Locally-Adaptive Vector Quantization(LVQ)在流式相似性搜索中的应用,提高其搜索性能。
  • 关键思路
    通过引入Turbo LVQ和multi-means LVQ两种改进方法,提高LVQ在流式相似性搜索中的表现。
  • 其它亮点
    实验结果表明,LVQ和其新变种能够实现极快的向量搜索,对于相同分布的数据,比最接近的竞争对手表现提高了9.4倍,对于数据分布变化的情况下,表现提高了8.8倍。作者还发布了Scalable Vector Search,一个开源的高性能相似性搜索库。
  • 相关研究
    目前还没有相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论