Unified and Efficient Approach for Multi-Vector Similarity Search

向作者提问

NEW

简介

多向量相似性搜索在众多实际应用场景中，对于实现细粒度语义检索至关重要，其表征能力远超传统的单向量范式。然而，由于缺乏原生的多向量索引支持，现有方法不得不依赖于构建在单向量索引之上的“过滤—精炼”框架。这类方法将每个多向量对象内部的词元向量孤立看待，忽视了它们之间的内在关联，因而陷入一种固有困境：若采用激进的过滤策略，则会严重损害召回率；而若采取保守的过滤策略，又会在精炼阶段带来难以承受的计算开销。为克服这一局限，我们提出了 MV-HNSW——首个专为多向量数据设计的原生分层图索引结构。MV-HNSW 引入了一种新颖的边权重函数，该函数满足图索引所必需的关键性质（即对称性、基数鲁棒性与查询一致性）；提出了一种加速的多向量相似度计算算法；并设计了一种增强型搜索策略，可动态发掘那些在拓扑结构上彼此分离、却仍与查询高度相关的目标候选对象。我们在七个真实世界数据集上开展了大量实验，结果表明：MV-HNSW 达到了当前最优的检索性能——在保持 90% 以上高召回率的同时，搜索延迟相较现有方法最多可降低 14.0 倍。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统单向量索引无法原生支持多向量相似性搜索，导致现有方法依赖低效的filter-and-refine框架：孤立处理token级向量、忽略内部相关性，陷入高召回与低延迟不可兼得的根本困境。这是一个尚未被系统解决的新问题——此前无原生多向量图索引结构。
关键思路

提出首个专为多向量数据设计的原生分层图索引MV-HNSW：1）设计满足对称性、基数鲁棒性、查询一致性的新型边权函数；2）开发加速的多向量相似度计算算法（避免全配对比对）；3）引入拓扑感知的增强搜索策略，主动发现图中连通性弱但语义相关的候选对象。
其它亮点

在7个真实世界多向量数据集（如MSMARCO-Doc、BEIR子集、COCO-Caption等）上全面验证；相比SOTA方法（如ColBERTv2、Jina-Embeddings+FAISS），在>90%召回下实现最高14.0×延迟降低；论文未明确提及开源代码，但方法具强工程可复现性；值得深入的方向包括：边权函数的理论泛化边界、动态图更新机制、与大语言模型检索器的端到端联合优化。
相关研究

ColBERTv2: Effective and Efficient Retrieval via Lightweight Token-Level Ranking; Jina-Embeddings: A Family of Multilingual Embedding Models for Semantic Search; SPLADE v2: Sparse Lexical and Expansion Model for First Stage Retrieval; Multi-Vector Indexing with Late Interaction Meets Graph Search (SIGIR '23 Workshop); HNSW: Hierarchical Navigable Small World Graphs for Approximate Nearest Neighbor Search

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问