DevBench: A Comprehensive Benchmark for Software Development

简介

近期大语言模型（LLMs）的进展显著增强了它们的编码能力。然而，现有的基准测试主要集中在编程的简化或孤立方面，例如单文件代码生成或存储库问题调试，无法衡量真实世界编程活动所引发的全部挑战。为此，我们提出了 DevBench，这是一个全面的基准测试，评估 LLMs 在软件开发生命周期的各个阶段，包括软件设计、环境设置、实现、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域，高质量的数据收集，并为每个任务精心设计和验证了指标。实证研究表明，包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 提出的挑战。分析显示，模型难以理解存储库中的复杂结构，管理编译过程和掌握高级编程概念。我们的研究为未来 LLMs 向真实世界编程应用的发展提供了可行的见解。我们的基准测试可在 https://github.com/open-compass/DevBench 上获得。
图表
解决问题

提出一种名为DevBench的综合性基准测试，以评估大型语言模型在软件开发生命周期的各个阶段中的编码能力，包括软件设计、环境设置、实现、验收测试和单元测试等方面。
关键思路

DevBench是一个全面的基准测试，可以评估LLMs在实际编程活动中的各个阶段的表现，包括复杂代码库的理解、编译过程的管理和高级编程概念的掌握等方面。
其它亮点

论文使用高质量的数据集和为每个任务精心设计和验证的指标，涵盖了多种编程语言和领域。实验结果表明，包括GPT-4-Turbo在内的当前LLMs无法解决DevBench中提出的挑战。研究还发现，模型难以理解代码库中的复杂结构，管理编译过程和掌握高级编程概念。DevBench基准测试的开源代码可在https://github.com/open-compass/DevBench上获得。
相关研究

最近的相关研究主要集中在单一任务的基准测试上，如单文件代码生成或存储库问题调试等方面。

DevBench: A Comprehensive Benchmark for Software Development

评论