LitSearch: A Retrieval Benchmark for Scientific Literature Search

简介

文献检索问题，比如“我在哪里可以找到有关生成摘要一致性评估的研究？”对于现代搜索引擎和检索系统来说，带来了重大挑战。这些问题通常需要对研究概念有深入的理解，并能够对整篇文章进行推理。在这项工作中，我们介绍了LitSearch，这是一个检索基准，包括597个关于最近的ML和NLP论文的现实文献检索查询。LitSearch是通过结合以下两种方法构建的：（1）由GPT-4生成的问题，基于包含研究论文内联引用的段落；（2）由作者手动编写的关于最近发表的论文的问题。所有LitSearch问题都经过专家的手动检查或编辑，以确保高质量。我们广泛地评估了最先进的检索模型，并评估了两个基于LLM的重新排序流水线。我们发现BM25和最先进的密集检索器之间存在显著的性能差距，绝对召回率@5相差24.8％。基于LLM的重新排序策略进一步提高了最佳表现的密集检索器4.4％。此外，商业搜索引擎和研究工具如Google Search在LitSearch上表现不佳，落后于最佳密集检索器32个点。综上所述，这些结果表明LitSearch是一个信息丰富的新测试平台，适用于检索系统，同时迎合实际的使用情况。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

评估生成摘要一致性的文献检索问题。

关键思路

引入LitSearch检索基准，使用GPT-4和作者手动编写的问题，评估现有的检索模型和两种基于LLM的重排策略。结果显示现有的稠密检索器比BM25表现更好，商业搜索引擎表现最差。

其它亮点

LitSearch是一个包含597个现实文献检索问题的基准，手动检查或编辑以确保高质量。实验结果表明，现有的稠密检索器比BM25表现更好，LLM-based reranking进一步提高了表现。商业搜索引擎表现最差。

LitSearch: A Retrieval Benchmark for Scientific Literature Search

提问交流

提问交流