Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration

向作者提问

NEW

简介

随着大型语言模型（LLMs）的普及，互联网上出现了大量由人工智能生成的内容（AIGC），将信息检索（IR）系统的语料库从仅由人类撰写转变为与LLM生成的内容共存。这种AIGC激增对IR系统的影响仍然是一个未解决的问题，主要挑战是缺乏研究人员专门的基准。在本文中，我们介绍了Cocktail，这是一个全面的基准，旨在评估在LLM时代这种混合来源数据景观中的IR模型。Cocktail由16个不同的数据集组成，涵盖各种文本检索任务和领域，其中包含混合人工编写和LLM生成的语料库。此外，为了避免LLMs中先前包含的数据集信息可能导致的偏见，我们还介绍了一个最新的数据集，名为NQ-UTD，其中的查询来自最近的事件。通过在Cocktail基准数据集上进行超过1,000次实验，评估最先进的检索模型，我们发现神经检索模型在排名性能和来源偏差之间存在明显的权衡，突出了在设计未来IR系统时平衡方法的必要性。我们希望Cocktail可以成为LLM时代IR研究的基础资源，所有数据和代码都可以在\url{https://github.com/KID-22/Cocktail}上公开获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

本论文旨在解决在大语言模型（LLM）时代，IR系统中人工智能生成内容（AIGC）的泛滥所带来的挑战，即如何评估IR模型在混合来源数据场景下的表现。
关键思路

论文提出了Cocktail基准测试集，包括16个不同领域、任务和来源的数据集，用于评估IR模型在混合来源数据场景下的表现。此外，为了避免LLM中已包含的数据集信息对实验结果造成偏差，论文还引入了最新的数据集NQ-UTD。
其它亮点

论文通过1000多次实验评估了当前最先进的检索模型在Cocktail基准测试集上的表现，并发现神经检索模型在排名性能和来源偏差之间存在明显的权衡，强调未来设计IR系统需要平衡考虑。Cocktail基准测试集的数据和代码都已公开。
相关研究

近期在这个领域中的相关研究包括：《Dense Passage Retrieval for Open-Domain Question Answering》、《Real-time Open-Domain Question Answering with Dense-Sparse Phrase Index》、《Pre-training Transformers as Energy-Based Cloze Models for Document Ranking》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问