BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

向作者提问

NEW

简介

现有的检索基准主要由信息查询查询（例如来自搜索引擎的聚合问题）组成，其中关键词或基于语义的检索通常足够。然而，许多复杂的现实世界查询需要深入推理才能识别超出表面形式匹配的相关文档。例如，查找编码问题的文档需要理解所涉及函数的逻辑和语法。为了更好地基准检索这些具有挑战性的查询，我们引入了BRIGHT，这是第一个需要密集推理才能检索相关文档的文本检索基准。BRIGHT由来自不同领域（如经济学，心理学，机器人技术，软件工程，地球科学等）的1,398个真实世界查询构成，这些查询来自自然发生或经过精心策划的人类数据。广泛的评估表明，即使是最先进的检索模型在BRIGHT上表现不佳。在MTEB排行榜上领先的模型[38]在nDCG@10方面取得了59.0分，但在BRIGHT上只能得到18.0分的nDCG@10。我们进一步证明，使用大型语言模型（LLMs）生成的思维链推理来增强查询可以将性能提高多达12.2个点。此外，BRIGHT对于基准模型的预训练期间的数据泄漏是稳健的，因为我们验证了即使将基准中的文档包括在训练数据中，性能也相似。我们相信BRIGHT为未来更加现实和具有挑战性的检索系统研究铺平了道路。我们的代码和数据可在https://brightbenchmark.github.io上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提出一个新的文本检索基准（BRIGHT），以解决现有基准无法应对需要深入推理的复杂实际查询的问题。
关键思路

BRIGHT基准从多个领域收集了1,398个真实查询，并要求模型进行深入推理以检索相关文档。使用大型语言模型生成的思维链推理可以提高性能。
其它亮点

BRIGHT是第一个要求进行深入推理以检索相关文档的基准。实验结果表明，即使是最先进的检索模型在BRIGHT上的表现也很差。使用大型语言模型生成的思维链推理可以提高性能。BRIGHT基准具有鲁棒性，即使在预训练时使用了基准中的文档，性能也不会受到影响。代码和数据集均已公开。
相关研究

最近的相关研究包括MTEB基准和一些使用大型语言模型进行推理的研究。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问