LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks

简介

越来越多的NLP模型评估采用LLM生成的判断，而非人类判断。如果没有与人类数据进行比较，这会引起对这些评估的有效性的担忧；如果这些评估是使用专有模型进行的，这还会引起关于可重复性的担忧。我们提供了JUDGE-BENCH，这是一个包含20个NLP数据集的人类注释集合，并全面评估了11个当前的LLM，涵盖了开放权重和专有模型，以评估它们复制注释的能力。我们的评估显示，每个LLM在与人类判断的相关性方面在数据集之间存在很大的差异。我们得出结论，LLM还没有准备好在NLP中系统地取代人类评判者。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估NLP模型时使用LLM生成的判断是否能替代人工判断？
关键思路

本论文提供了一个包含人工注释的NLP数据集，并对11个LLM进行了评估，发现LLM在不同数据集上的相关性存在较大的差异，因此暂时不能替代人工判断。
其它亮点

本文提供了一个包含20个NLP数据集的JUDGE-BENCH，并对11个LLM进行了全面评估。实验结果表明，LLM在不同数据集上的相关性存在较大的差异，不能替代人工判断。
相关研究

最近的相关研究包括使用预训练模型进行NLP任务的研究，如BERT、GPT等。