Generative Information Retrieval Evaluation

Marwah Alaofi ,
Negar Arabzadeh ,
Charles L. A. Clarke ,
Mark Sanderson
2024年04月11日
  • 简介
    本章中,我们从两个不同但相互关联的角度考虑生成式信息检索评估。首先,大型语言模型(LLMs)本身正在迅速成为评估工具,当前研究表明,LLMs在基本相关性判断任务上可能优于众包工人和其他付费评估员。我们回顾了过去和正在进行的相关研究,包括对共享任务倡议(如TREC)未来的推测以及对人类评估的持续需求的讨论。其次,我们考虑评估新兴的基于LLM的生成式信息检索(GenIR)系统,包括检索增强生成(RAG)系统。我们考虑的方法既关注GenIR系统的端到端评估,也关注检索组件作为RAG系统中的元素的评估。展望未来,我们预计GenIR系统的评估至少部分基于LLM的评估,从而创建一个明显的循环,即系统似乎评估其自身的输出。我们通过两种方式解决这个明显的循环:1)将基于LLM的评估视为“缓慢搜索”的形式,其中使用较慢的IR系统来评估和训练更快的生产IR系统;2)即使必须改变人类评估的特征,仍然需要认识到继续需要将评估基于人类评估。
  • 图表
  • 解决问题
    评估生成式信息检索系统的有效性和可靠性
  • 关键思路
    利用大型语言模型进行评估,同时结合人工评估
  • 其它亮点
    使用大型语言模型进行评估,提高了评估的效率和准确性;讨论了评估生成式信息检索系统的不同方法,包括端到端评估和检索组件评估;认为人工评估仍然是必要的;提出了一种利用较慢的IR系统进行评估和训练更快的生产IR系统的方法
  • 相关研究
    TREC等共享任务的研究,以及其他大型语言模型在评估中的应用研究
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论