- 简介文献检索问题,比如“我在哪里可以找到有关生成摘要一致性评估的研究?”对于现代搜索引擎和检索系统来说,带来了重大挑战。这些问题通常需要对研究概念有深入的理解,并能够对整篇文章进行推理。在这项工作中,我们介绍了LitSearch,这是一个检索基准,包括597个关于最近的ML和NLP论文的现实文献检索查询。LitSearch是通过结合以下两种方法构建的:(1)由GPT-4生成的问题,基于包含研究论文内联引用的段落;(2)由作者手动编写的关于最近发表的论文的问题。所有LitSearch问题都经过专家的手动检查或编辑,以确保高质量。我们广泛地评估了最先进的检索模型,并评估了两个基于LLM的重新排序流水线。我们发现BM25和最先进的密集检索器之间存在显著的性能差距,绝对召回率@5相差24.8%。基于LLM的重新排序策略进一步提高了最佳表现的密集检索器4.4%。此外,商业搜索引擎和研究工具如Google Search在LitSearch上表现不佳,落后于最佳密集检索器32个点。综上所述,这些结果表明LitSearch是一个信息丰富的新测试平台,适用于检索系统,同时迎合实际的使用情况。
- 图表
- 解决问题评估生成摘要一致性的文献检索问题。
- 关键思路引入LitSearch检索基准,使用GPT-4和作者手动编写的问题,评估现有的检索模型和两种基于LLM的重排策略。结果显示现有的稠密检索器比BM25表现更好,商业搜索引擎表现最差。
- 其它亮点LitSearch是一个包含597个现实文献检索问题的基准,手动检查或编辑以确保高质量。实验结果表明,现有的稠密检索器比BM25表现更好,LLM-based reranking进一步提高了表现。商业搜索引擎表现最差。
- 最近的相关研究没有被列举。
沙发等你来抢
去评论
评论
沙发等你来抢