Generative Information Retrieval Evaluation

简介

本章中，我们从两个不同但相互关联的角度考虑生成式信息检索评估。首先，大型语言模型（LLMs）本身正在迅速成为评估工具，当前研究表明，LLMs在基本相关性判断任务上可能优于众包工人和其他付费评估员。我们回顾了过去和正在进行的相关研究，包括对共享任务倡议（如TREC）未来的推测以及对人类评估的持续需求的讨论。其次，我们考虑评估新兴的基于LLM的生成式信息检索（GenIR）系统，包括检索增强生成（RAG）系统。我们考虑的方法既关注GenIR系统的端到端评估，也关注检索组件作为RAG系统中的元素的评估。展望未来，我们预计GenIR系统的评估至少部分基于LLM的评估，从而创建一个明显的循环，即系统似乎评估其自身的输出。我们通过两种方式解决这个明显的循环：1）将基于LLM的评估视为“缓慢搜索”的形式，其中使用较慢的IR系统来评估和训练更快的生产IR系统；2）即使必须改变人类评估的特征，仍然需要认识到继续需要将评估基于人类评估。

图表

解决问题

评估生成式信息检索系统的有效性和可靠性

关键思路

利用大型语言模型进行评估，同时结合人工评估

其它亮点

使用大型语言模型进行评估，提高了评估的效率和准确性；讨论了评估生成式信息检索系统的不同方法，包括端到端评估和检索组件评估；认为人工评估仍然是必要的；提出了一种利用较慢的IR系统进行评估和训练更快的生产IR系统的方法

Generative Information Retrieval Evaluation

评论