The RealHumanEval: Evaluating Large Language Models' Abilities to Support Programmers

向作者提问

NEW

简介

大型语言模型（LLMs）在代码评估方面主要依靠静态基准测试，包括HumanEval（Chen等，2021），该测试衡量LLMs生成通过单元测试的完整代码的能力。随着LLMs越来越多地被用作程序员助手，我们研究了现有基准测试的收益是否能转化为使用LLMs编码时的程序员生产力收益，包括编码时间。除了静态基准测试外，我们还研究了可能用作代理来衡量LLM有用性的偏好度量，例如代码接受率或复制率。为此，我们引入了RealHumanEval，这是一个Web界面，用于通过自动完成或聊天支持来衡量LLMs协助程序员的能力。我们使用RealHumanEval进行了一项用户研究（N=213），用户与六个基础模型性能不同的LLMs进行交互。尽管静态基准测试没有将人类纳入其中，但我们发现基准测试性能的提高会导致程序员生产力的提高；然而，基准测试与人类表现之间的差距不成比例，这一趋势在LLM支持的两种形式中都存在。相反，我们发现程序员的偏好与其实际表现不相关，这促使我们需要更好的以人为中心的代理信号。我们还开源了RealHumanEval，以便对新模型进行以人为中心的评估，并公开了研究数据，以促进改进代码模型的努力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型语言模型（LLMs）在代码方面的效果时，静态基准测试是否能够反映程序员在使用LLMs时的实际生产力？如何使用更好的人类中心代理信号来衡量LLMs的帮助效果？
关键思路

论文提出了RealHumanEval，一个用于评估LLMs辅助程序员的网页界面，并进行了一个用户研究。研究发现，虽然静态基准测试没有考虑到人类因素，但是在基准测试性能提高的情况下，程序员的生产力也会提高。然而，基准测试与人类表现之间的差距不成比例。此外，程序员的偏好并不一定与他们的实际表现相关。
其它亮点

论文开源了RealHumanEval，以便评估新模型，并提供了研究数据以促进改进代码模型的努力。用户研究中使用了六种不同性能的LLMs，并探讨了代码接受率和复制率等偏好度量的实用性。
相关研究

最近的相关研究包括使用LLMs生成代码的静态基准测试和人工评估，以及探索LLMs在程序员辅助方面的潜力的研究。论文还提到了一些相关研究，例如CodeBERT和GPT-3等模型在代码生成方面的应用。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问