LitSearch: A Retrieval Benchmark for Scientific Literature Search

2024年07月10日
  • 简介
    文献检索问题,比如“我在哪里可以找到有关生成摘要一致性评估的研究?”对于现代搜索引擎和检索系统来说,带来了重大挑战。这些问题通常需要对研究概念有深入的理解,并能够对整篇文章进行推理。在这项工作中,我们介绍了LitSearch,这是一个检索基准,包括597个关于最近的ML和NLP论文的现实文献检索查询。LitSearch是通过结合以下两种方法构建的:(1)由GPT-4生成的问题,基于包含研究论文内联引用的段落;(2)由作者手动编写的关于最近发表的论文的问题。所有LitSearch问题都经过专家的手动检查或编辑,以确保高质量。我们广泛地评估了最先进的检索模型,并评估了两个基于LLM的重新排序流水线。我们发现BM25和最先进的密集检索器之间存在显著的性能差距,绝对召回率@5相差24.8%。基于LLM的重新排序策略进一步提高了最佳表现的密集检索器4.4%。此外,商业搜索引擎和研究工具如Google Search在LitSearch上表现不佳,落后于最佳密集检索器32个点。综上所述,这些结果表明LitSearch是一个信息丰富的新测试平台,适用于检索系统,同时迎合实际的使用情况。
  • 图表
  • 解决问题
    评估生成摘要一致性的文献检索问题。
  • 关键思路
    引入LitSearch检索基准,使用GPT-4和作者手动编写的问题,评估现有的检索模型和两种基于LLM的重排策略。结果显示现有的稠密检索器比BM25表现更好,商业搜索引擎表现最差。
  • 其它亮点
    LitSearch是一个包含597个现实文献检索问题的基准,手动检查或编辑以确保高质量。实验结果表明,现有的稠密检索器比BM25表现更好,LLM-based reranking进一步提高了表现。商业搜索引擎表现最差。
  • 相关研究
    最近的相关研究没有被列举。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论