OBLIQ-Bench: Exposing Overlooked Bottlenecks in Modern Retrievers with Latent and Implicit Queries

向作者提问

NEW

简介

检索基准测试正日益趋于饱和，但我们认为，高效搜索远非一个已解决的问题。我们识别出一类被称为“隐晦型”（oblique）的查询——这类查询旨在检索能够体现某种潜在模式的文档，例如：找出所有隐含表达某种立场的推文、展现特定故障模式的聊天记录，或匹配某一抽象场景的对话转录文本。我们系统分析了导致查询隐晦性的三类成因，并构建了OBLIQ-Bench——一个涵盖五个隐晦型搜索任务的评测套件，所有任务均基于真实、长尾分布的语料库。OBLIQ-Bench揭示了一个长期被忽视的“检索—验证”不对称现象：即具备推理能力的大语言模型（LLM）只要在检索结果中见到相关文档，便能高度可靠地识别其潜在相关性；然而，即便是最先进的检索流程，也往往根本无法在首轮检索结果中召回绝大多数真正相关的文档。我们期望OBLIQ-Bench能够推动学界深入探索新型检索架构，使其能够在大规模语料库中高效捕获潜在模式与隐性线索。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统检索基准趋于饱和，但现实场景中存在大量'斜向查询'（oblique queries）——即用户需检索隐含特定模式（如隐式立场、抽象故障模式）的文档，而现有检索系统难以有效发现这类隐含相关文档。这是一个被长期忽视的新问题类别。
关键思路

提出'斜向性'（obliqueness）概念，系统识别其三大成因（semantic abstraction, pragmatic inference, distributional rarity），并构建首个聚焦隐含模式检索的基准OBLIQ-Bench；核心洞见是揭示检索与验证间的根本不对称：LLM能可靠验证隐含相关性，却无法高效检索——因此需重构检索架构本身，而非仅优化排序或重排。
其它亮点

OBLIQ-Bench包含5个真实长尾语料库上的斜向搜索任务（Twitter、GitHub Issues、customer support logs等），全部开源；实验严格分离检索（recall@100）与验证（LLM-based relevance judgment）阶段，证实SOTA检索器（ColBERTv2、RAG Fusion等）召回率普遍<15%，而同一LLM对已召回样本的验证准确率>92%；代码、数据、评估脚本已开源（https://github.com/stanford-oval/obl iq-bench）。
相关研究

Retrieval-Augmented Generation (RAG) with LLMs (Lewis et al., 2020); ColBERT: Efficient and Effective Retrieval (Khattab & Zaharia, 2020); BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models (Thakur et al., 2021); The Limitations of RAG in Real-World Applications (Shi et al., ACL 2023); Latent Retrieval for Weakly Supervised Open Domain Question Answering (Dai & Callan, SIGIR 2021)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问