- 简介本章中,我们从两个不同但相互关联的角度考虑生成式信息检索评估。首先,大型语言模型(LLMs)本身正在迅速成为评估工具,当前研究表明,LLMs在基本相关性判断任务上可能优于众包工人和其他付费评估员。我们回顾了过去和正在进行的相关研究,包括对共享任务倡议(如TREC)未来的推测以及对人类评估的持续需求的讨论。其次,我们考虑评估新兴的基于LLM的生成式信息检索(GenIR)系统,包括检索增强生成(RAG)系统。我们考虑的方法既关注GenIR系统的端到端评估,也关注检索组件作为RAG系统中的元素的评估。展望未来,我们预计GenIR系统的评估至少部分基于LLM的评估,从而创建一个明显的循环,即系统似乎评估其自身的输出。我们通过两种方式解决这个明显的循环:1)将基于LLM的评估视为“缓慢搜索”的形式,其中使用较慢的IR系统来评估和训练更快的生产IR系统;2)即使必须改变人类评估的特征,仍然需要认识到继续需要将评估基于人类评估。
- 图表
- 解决问题评估生成式信息检索系统的有效性和可靠性
- 关键思路利用大型语言模型进行评估,同时结合人工评估
- 其它亮点使用大型语言模型进行评估,提高了评估的效率和准确性;讨论了评估生成式信息检索系统的不同方法,包括端到端评估和检索组件评估;认为人工评估仍然是必要的;提出了一种利用较慢的IR系统进行评估和训练更快的生产IR系统的方法
- TREC等共享任务的研究,以及其他大型语言模型在评估中的应用研究
沙发等你来抢
去评论
评论
沙发等你来抢