The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers

2024年04月03日
  • 简介
    大型语言模型(LLMs)在代码评估方面主要依靠静态基准测试,包括HumanEval(Chen等,2021),该测试衡量LLMs生成通过单元测试的完整代码的能力。随着LLMs越来越多地被用作程序员助手,我们研究了现有基准测试的收益是否能转化为使用LLMs编码时的程序员生产力收益,包括编码时间。除了静态基准测试外,我们还研究了可能用作代理来衡量LLM有用性的偏好度量,例如代码接受率或复制率。为此,我们引入了RealHumanEval,这是一个Web界面,用于通过自动完成或聊天支持来衡量LLMs协助程序员的能力。我们使用RealHumanEval进行了一项用户研究(N=213),用户与六个基础模型性能不同的LLMs进行交互。尽管静态基准测试没有将人类纳入其中,但我们发现基准测试性能的提高会导致程序员生产力的提高;然而,基准测试与人类表现之间的差距不成比例,这一趋势在LLM支持的两种形式中都存在。相反,我们发现程序员的偏好与其实际表现不相关,这促使我们需要更好的以人为中心的代理信号。我们还开源了RealHumanEval,以便对新模型进行以人为中心的评估,并公开了研究数据,以促进改进代码模型的努力。
  • 作者讲解
  • 图表
  • 解决问题
    评估大型语言模型(LLMs)在代码方面的效果时,静态基准测试是否能够反映程序员在使用LLMs时的实际生产力?如何使用更好的人类中心代理信号来衡量LLMs的帮助效果?
  • 关键思路
    论文提出了RealHumanEval,一个用于评估LLMs辅助程序员的网页界面,并进行了一个用户研究。研究发现,虽然静态基准测试没有考虑到人类因素,但是在基准测试性能提高的情况下,程序员的生产力也会提高。然而,基准测试与人类表现之间的差距不成比例。此外,程序员的偏好并不一定与他们的实际表现相关。
  • 其它亮点
    论文开源了RealHumanEval,以便评估新模型,并提供了研究数据以促进改进代码模型的努力。用户研究中使用了六种不同性能的LLMs,并探讨了代码接受率和复制率等偏好度量的实用性。
  • 相关研究
    最近的相关研究包括使用LLMs生成代码的静态基准测试和人工评估,以及探索LLMs在程序员辅助方面的潜力的研究。论文还提到了一些相关研究,例如CodeBERT和GPT-3等模型在代码生成方面的应用。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问