LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

2024年06月26日
  • 简介
    越来越多的NLP模型评估采用LLM生成的判断,而非人类判断。如果没有与人类数据进行比较,这会引起对这些评估的有效性的担忧;如果这些评估是使用专有模型进行的,这还会引起关于可重复性的担忧。我们提供了JUDGE-BENCH,这是一个包含20个NLP数据集的人类注释集合,并全面评估了11个当前的LLM,涵盖了开放权重和专有模型,以评估它们复制注释的能力。我们的评估显示,每个LLM在与人类判断的相关性方面在数据集之间存在很大的差异。我们得出结论,LLM还没有准备好在NLP中系统地取代人类评判者。
  • 作者讲解
  • 图表
  • 解决问题
    评估NLP模型时使用LLM生成的判断是否能替代人工判断?
  • 关键思路
    本论文提供了一个包含人工注释的NLP数据集,并对11个LLM进行了评估,发现LLM在不同数据集上的相关性存在较大的差异,因此暂时不能替代人工判断。
  • 其它亮点
    本文提供了一个包含20个NLP数据集的JUDGE-BENCH,并对11个LLM进行了全面评估。实验结果表明,LLM在不同数据集上的相关性存在较大的差异,不能替代人工判断。
  • 相关研究
    最近的相关研究包括使用预训练模型进行NLP任务的研究,如BERT、GPT等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问