On the Theoretical Limitations of Embedding-Based Retrieval

向作者提问

NEW

简介

近年来，向量嵌入被用于越来越多的检索任务，且在推理、指令执行、代码生成等方面的应用也开始兴起。这些新的基准测试要求嵌入模型能够应对任何可能的查询以及各种相关性定义。虽然之前的研究指出了向量嵌入在理论上存在局限性，但人们普遍认为这些问题只会在不现实的查询中出现，而对那些合理的查询，只要训练数据更完善、模型更大，就能克服这些困难。在本研究中，我们展示了即使在非常简单的查询和现实的场景中，也可能会遇到这些理论上的限制。我们结合了学习理论中的已有成果，说明能够通过某个查询返回的文档 top-k 子集数量受限于嵌入空间的维度。我们通过实验表明，即使将 k 限制为 2，并使用自由参数化的嵌入直接在测试集上进行优化，这一限制依然存在。随后，我们基于这些理论结果构建了一个名为 LIMIT 的真实数据集，用于对模型进行极限测试，并观察到，即使是最先进的模型，在这个任务本身非常简单的数据集上也表现不佳。我们的研究揭示了当前单一向量范式下嵌入模型的根本性局限，并呼吁未来研究应致力于开发能够突破这一限制的新方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在验证一个假设：现有的向量嵌入（vector embeddings）在理论上存在限制，即使在现实场景中、面对极其简单的查询，也可能无法有效工作。这挑战了当前普遍认为的“只要训练数据更好、模型更大就能克服这些限制”的观点。
关键思路

论文通过连接学习理论中的已知结果，指出向量嵌入的维度决定了能够返回的top-k文档子集的数量上限。即使是最简单的查询（如k=2），这一理论限制依然存在并影响实际表现。论文通过实验证明这一限制在现实中也成立，并构建了一个专门用于测试这一限制的基准数据集LIMIT。
其它亮点

1. 实验设计直接优化测试集，使用自由参数化的嵌入模型，验证了理论预测的限制依然适用。 2. 构建了一个名为LIMIT的现实数据集，用于压力测试嵌入模型的理论极限。 3. 即使最先进的模型（如SBERT、Instructor等）在该数据集上也表现不佳，表明当前模型存在根本性限制。 4. 论文呼吁研究界跳出单一向量表示的范式，探索新的方法来克服这一限制。
相关研究

1. Vershynin (2010), Introduction to the non-asymptotic analysis of random matrices 2. Arora et al. (2017), A Simple but Tough-to-Beat Baseline for Sentence Embeddings 3. Reimers & Gurevych (2019), Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks 4. Wang et al. (2021), The Contriever and other models for dense retrieval 5. Sivaraman et al. (2020), Theoretical limitations of self-attention in neural sequence models

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问