- 简介检索基准测试正日益趋于饱和,但我们认为,高效搜索远非一个已解决的问题。我们识别出一类被称为“隐晦型”(oblique)的查询——这类查询旨在检索能够体现某种潜在模式的文档,例如:找出所有隐含表达某种立场的推文、展现特定故障模式的聊天记录,或匹配某一抽象场景的对话转录文本。我们系统分析了导致查询隐晦性的三类成因,并构建了OBLIQ-Bench——一个涵盖五个隐晦型搜索任务的评测套件,所有任务均基于真实、长尾分布的语料库。OBLIQ-Bench揭示了一个长期被忽视的“检索—验证”不对称现象:即具备推理能力的大语言模型(LLM)只要在检索结果中见到相关文档,便能高度可靠地识别其潜在相关性;然而,即便是最先进的检索流程,也往往根本无法在首轮检索结果中召回绝大多数真正相关的文档。我们期望OBLIQ-Bench能够推动学界深入探索新型检索架构,使其能够在大规模语料库中高效捕获潜在模式与隐性线索。
-
- 图表
- 解决问题传统检索基准趋于饱和,但现实场景中存在大量'斜向查询'(oblique queries)——即用户需检索隐含特定模式(如隐式立场、抽象故障模式)的文档,而现有检索系统难以有效发现这类隐含相关文档。这是一个被长期忽视的新问题类别。
- 关键思路提出'斜向性'(obliqueness)概念,系统识别其三大成因(semantic abstraction, pragmatic inference, distributional rarity),并构建首个聚焦隐含模式检索的基准OBLIQ-Bench;核心洞见是揭示检索与验证间的根本不对称:LLM能可靠验证隐含相关性,却无法高效检索——因此需重构检索架构本身,而非仅优化排序或重排。
- 其它亮点OBLIQ-Bench包含5个真实长尾语料库上的斜向搜索任务(Twitter、GitHub Issues、customer support logs等),全部开源;实验严格分离检索(recall@100)与验证(LLM-based relevance judgment)阶段,证实SOTA检索器(ColBERTv2、RAG Fusion等)召回率普遍<15%,而同一LLM对已召回样本的验证准确率>92%;代码、数据、评估脚本已开源(https://github.com/stanford-oval/obl iq-bench)。
- Retrieval-Augmented Generation (RAG) with LLMs (Lewis et al., 2020); ColBERT: Efficient and Effective Retrieval (Khattab & Zaharia, 2020); BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models (Thakur et al., 2021); The Limitations of RAG in Real-World Applications (Shi et al., ACL 2023); Latent Retrieval for Weakly Supervised Open Domain Question Answering (Dai & Callan, SIGIR 2021)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流