- 简介本文探讨了在评估代码和相关产物时,是否可以用成本更低的大型语言模型(LLMs)代替昂贵的人类受试者。由于找到并雇用合适的受试者(最好是具有不同经验水平的专业程序员)的成本和难度,我们领域的人类受试研究具有挑战性。与此同时,最近大型语言模型在多个领域开始展示出人类水平的性能。我们通过将六种最先进的LLMs应用于由先前工作创建的五个数据集中的十个注释任务来研究这个想法,例如判断自然语言摘要的准确性或决定代码更改是否修复了静态分析警告。我们的结果表明,用LLMs替代部分人类注释工作可以产生与人类评价者一致或接近一致的互评协议。为了帮助决定何时以及如何在人类受试研究中使用LLMs,我们提出模型-模型协议作为预测是否适合使用LLMs的指标,以及模型置信度作为选择LLMs可以安全替代人类注释者的特定样本的手段。总的来说,我们的工作是软件工程中混合人类-LLM评估的第一步。
-
- 图表
- 解决问题论文探讨使用大型语言模型替代人类主观评估的可行性,以降低实验成本。
- 关键思路通过将六种最先进的大型语言模型应用于五个数据集中的十个注释任务,论文发现在某些情况下,使用大型语言模型可以产生与人类评估者相等或接近的一致性。同时,论文提出了模型之间的一致性和模型置信度等指标来帮助决定何时以及如何使用大型语言模型进行人类主观评估。
- 其它亮点论文采用了六种最先进的大型语言模型,并在五个数据集中进行了十个注释任务的实验。论文提出了模型之间的一致性和模型置信度等指标来帮助决定何时以及如何使用大型语言模型进行人类主观评估。
- 近年来,大型语言模型在自然语言处理领域取得了很大的进展。与本文相关的研究包括使用大型语言模型进行代码注释和代码自动生成。


提问交流