Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration

2024年05月26日
  • 简介
    随着大型语言模型(LLMs)的普及,互联网上出现了大量由人工智能生成的内容(AIGC),将信息检索(IR)系统的语料库从仅由人类撰写转变为与LLM生成的内容共存。这种AIGC激增对IR系统的影响仍然是一个未解决的问题,主要挑战是缺乏研究人员专门的基准。在本文中,我们介绍了Cocktail,这是一个全面的基准,旨在评估在LLM时代这种混合来源数据景观中的IR模型。Cocktail由16个不同的数据集组成,涵盖各种文本检索任务和领域,其中包含混合人工编写和LLM生成的语料库。此外,为了避免LLMs中先前包含的数据集信息可能导致的偏见,我们还介绍了一个最新的数据集,名为NQ-UTD,其中的查询来自最近的事件。通过在Cocktail基准数据集上进行超过1,000次实验,评估最先进的检索模型,我们发现神经检索模型在排名性能和来源偏差之间存在明显的权衡,突出了在设计未来IR系统时平衡方法的必要性。我们希望Cocktail可以成为LLM时代IR研究的基础资源,所有数据和代码都可以在\url{https://github.com/KID-22/Cocktail}上公开获取。
  • 作者讲解
  • 解决问题
    本论文旨在解决在大语言模型(LLM)时代,IR系统中人工智能生成内容(AIGC)的泛滥所带来的挑战,即如何评估IR模型在混合来源数据场景下的表现。
  • 关键思路
    论文提出了Cocktail基准测试集,包括16个不同领域、任务和来源的数据集,用于评估IR模型在混合来源数据场景下的表现。此外,为了避免LLM中已包含的数据集信息对实验结果造成偏差,论文还引入了最新的数据集NQ-UTD。
  • 其它亮点
    论文通过1000多次实验评估了当前最先进的检索模型在Cocktail基准测试集上的表现,并发现神经检索模型在排名性能和来源偏差之间存在明显的权衡,强调未来设计IR系统需要平衡考虑。Cocktail基准测试集的数据和代码都已公开。
  • 相关研究
    近期在这个领域中的相关研究包括:《Dense Passage Retrieval for Open-Domain Question Answering》、《Real-time Open-Domain Question Answering with Dense-Sparse Phrase Index》、《Pre-training Transformers as Energy-Based Cloze Models for Document Ranking》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问