- 简介越来越多的NLP模型评估采用LLM生成的判断,而非人类判断。如果没有与人类数据进行比较,这会引起对这些评估的有效性的担忧;如果这些评估是使用专有模型进行的,这还会引起关于可重复性的担忧。我们提供了JUDGE-BENCH,这是一个包含20个NLP数据集的人类注释集合,并全面评估了11个当前的LLM,涵盖了开放权重和专有模型,以评估它们复制注释的能力。我们的评估显示,每个LLM在与人类判断的相关性方面在数据集之间存在很大的差异。我们得出结论,LLM还没有准备好在NLP中系统地取代人类评判者。
-
- 图表
- 解决问题评估NLP模型时使用LLM生成的判断是否能替代人工判断?
- 关键思路本论文提供了一个包含人工注释的NLP数据集,并对11个LLM进行了评估,发现LLM在不同数据集上的相关性存在较大的差异,因此暂时不能替代人工判断。
- 其它亮点本文提供了一个包含20个NLP数据集的JUDGE-BENCH,并对11个LLM进行了全面评估。实验结果表明,LLM在不同数据集上的相关性存在较大的差异,不能替代人工判断。
- 最近的相关研究包括使用预训练模型进行NLP任务的研究,如BERT、GPT等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流