DevEval: A Manually-Annotated Code Generation Benchmark Aligned with Real-World Code Repositories

向作者提问

NEW

简介

如何评估大型语言模型（LLMs）的编码能力仍然是一个未解决的问题。我们发现现有的基准测试与实际代码库的不一致，无法充分评估LLMs的编码能力。为了解决这个知识差距，我们提出了一个名为DevEval的新基准测试，它有三个优点：（1）DevEval在多个维度上与实际代码库保持一致，例如代码分布和依赖分布。（2）DevEval由13个开发人员进行注释，并包含全面的注释（例如需求、原始库、参考代码和参考依赖项）。（3）DevEval包括来自117个库的1,874个测试样本，涵盖10个流行领域（例如互联网、数据库）。基于DevEval，我们提出了库级代码生成，并在DevEval上评估了8个流行的LLMs（例如gpt-4、gpt-3.5、StarCoder 2、DeepSeek Coder、CodeLLaMa）。我们的实验揭示了这些LLMs在实际代码库中的编码能力。例如，在我们的实验中，gpt-4-turbo的最高Pass@1仅为53.04%。我们还分析了LLMs的失败案例并总结了它们的缺点。我们希望DevEval能够促进LLMs在实际代码库中的开发。DevEval、提示和LLMs的预测已经发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决如何评估大型语言模型（LLMs）的编程能力的问题。现有的基准测试与现实世界的代码库不太对齐，无法充分评估LLMs的编程能力。
关键思路

为了解决这个问题，论文提出了一个新的基准测试，名为DevEval。DevEval与现实世界的代码库在多个维度上对齐，包括代码分布和依赖分布。DevEval由13个开发人员进行注释，并包含全面的注释（如需求、原始代码库、参考代码和参考依赖项）。DevEval包含来自117个代码库的1,874个测试样本，涵盖10个流行领域（如互联网、数据库）。基于DevEval，论文提出了基于代码库的代码生成，并在DevEval上评估了8个流行的LLMs（如gpt-4、gpt-3.5、StarCoder 2、DeepSeek Coder、CodeLLaMa）。实验揭示了这些LLMs在现实世界代码库中的编程能力。例如，在实验中，gpt-4-turbo的最高Pass@1仅为53.04％。论文还分析了LLMs的失败案例并总结了它们的缺点。
其它亮点

论文提出了一个新的基准测试DevEval，可以更好地评估LLMs在现实世界代码库中的编程能力。DevEval由13个开发人员进行注释，并包含全面的注释。论文还提出了基于代码库的代码生成，并评估了8个流行的LLMs。论文的实验结果揭示了LLMs在现实世界代码库中的编程能力，同时还分析了LLMs的失败案例并总结了它们的缺点。
相关研究

最近在这个领域中，还有一些相关的研究，如CodeBERT和CodeXGLUE等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问