DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories

2024年05月30日
  • 简介
    如何评估大型语言模型(LLMs)的编码能力仍然是一个未解决的问题。我们发现现有的基准测试与实际代码库的不一致,无法充分评估LLMs的编码能力。 为了解决这个知识差距,我们提出了一个名为DevEval的新基准测试,它有三个优点:(1)DevEval在多个维度上与实际代码库保持一致,例如代码分布和依赖分布。(2)DevEval由13个开发人员进行注释,并包含全面的注释(例如需求、原始库、参考代码和参考依赖项)。 (3)DevEval包括来自117个库的1,874个测试样本,涵盖10个流行领域(例如互联网、数据库)。基于DevEval,我们提出了库级代码生成,并在DevEval上评估了8个流行的LLMs(例如gpt-4、gpt-3.5、StarCoder 2、DeepSeek Coder、CodeLLaMa)。我们的实验揭示了这些LLMs在实际代码库中的编码能力。例如,在我们的实验中,gpt-4-turbo的最高Pass@1仅为53.04%。我们还分析了LLMs的失败案例并总结了它们的缺点。我们希望DevEval能够促进LLMs在实际代码库中的开发。DevEval、提示和LLMs的预测已经发布。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决如何评估大型语言模型(LLMs)的编程能力的问题。现有的基准测试与现实世界的代码库不太对齐,无法充分评估LLMs的编程能力。
  • 关键思路
    为了解决这个问题,论文提出了一个新的基准测试,名为DevEval。DevEval与现实世界的代码库在多个维度上对齐,包括代码分布和依赖分布。DevEval由13个开发人员进行注释,并包含全面的注释(如需求、原始代码库、参考代码和参考依赖项)。DevEval包含来自117个代码库的1,874个测试样本,涵盖10个流行领域(如互联网、数据库)。基于DevEval,论文提出了基于代码库的代码生成,并在DevEval上评估了8个流行的LLMs(如gpt-4、gpt-3.5、StarCoder 2、DeepSeek Coder、CodeLLaMa)。实验揭示了这些LLMs在现实世界代码库中的编程能力。例如,在实验中,gpt-4-turbo的最高Pass@1仅为53.04%。论文还分析了LLMs的失败案例并总结了它们的缺点。
  • 其它亮点
    论文提出了一个新的基准测试DevEval,可以更好地评估LLMs在现实世界代码库中的编程能力。DevEval由13个开发人员进行注释,并包含全面的注释。论文还提出了基于代码库的代码生成,并评估了8个流行的LLMs。论文的实验结果揭示了LLMs在现实世界代码库中的编程能力,同时还分析了LLMs的失败案例并总结了它们的缺点。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如CodeBERT和CodeXGLUE等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问