Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration

2024年05月26日
  • 简介
    大型语言模型(LLMs)的普及导致了互联网上人工智能生成内容(AIGC)的涌现,将信息检索(IR)系统的语料库从仅有人类编写的内容转变为与LLM生成的内容共存。这种AIGC激增对IR系统的影响仍是一个未解决的问题,主要挑战在于缺乏专门为研究人员设计的基准。本文介绍了Cocktail,这是一个全面的基准,旨在评估LLM时代这种混合源数据景观中的IR模型。Cocktail包括16个不同的数据集,涵盖各种文本检索任务和领域,其中包含混合人工编写和LLM生成的语料库。此外,为避免LLMs中先前包含的数据集信息的潜在偏见,我们还介绍了一个最新的数据集,名为NQ-UTD,其中的查询来自最近的事件。通过对Cocktail中的基准数据集进行超过1,000次实验,评估最先进的检索模型的排名表现,我们发现神经检索模型在排名表现和源偏差之间存在明显的权衡,强调在设计未来的IR系统时需要平衡考虑。我们希望Cocktail可以成为LLM时代IR研究的基础资源,所有数据和代码都可以在\url{https://github.com/KID-22/Cocktail}上公开获取。
  • 图表
  • 解决问题
    本论文旨在解决在大语言模型(LLMs)时代,人工智能生成内容(AIGC)对信息检索(IR)系统的影响,以及缺乏专门的基准测试数据集的问题。
  • 关键思路
    本论文提出了一个名为Cocktail的全面基准测试数据集,包含16个不同领域的数据集,旨在评估IR模型在混合源数据的情况下的性能。同时,通过1000多次实验,揭示了神经检索模型在排名性能和源偏差之间的权衡,并强调未来设计IR系统需要平衡考虑。
  • 其它亮点
    值得关注的亮点包括Cocktail基准测试数据集的设计,其中包含人工编写和LLM生成的文本,以及NQ-UTD数据集的引入。实验设计详细,数据集和代码也已公开。此外,本论文的研究成果为未来IR系统的设计提供了指导。
  • 相关研究
    最近在这个领域中,一些相关的研究包括“Neural Information Retrieval: A Literature Review”和“BERT re-ranking for conversational search: Do we need dense passage retrieval?”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论