DevBench: A Comprehensive Benchmark for Software Development

2024年03月13日
  • 简介
    近期大语言模型(LLMs)的进展显著增强了它们的编码能力。然而,现有的基准测试主要集中在编程的简化或孤立方面,例如单文件代码生成或存储库问题调试,无法衡量真实世界编程活动所引发的全部挑战。为此,我们提出了 DevBench,这是一个全面的基准测试,评估 LLMs 在软件开发生命周期的各个阶段,包括软件设计、环境设置、实现、验收测试和单元测试。DevBench 涵盖了广泛的编程语言和领域,高质量的数据收集,并为每个任务精心设计和验证了指标。实证研究表明,包括 GPT-4-Turbo 在内的当前 LLMs 未能解决 DevBench 提出的挑战。分析显示,模型难以理解存储库中的复杂结构,管理编译过程和掌握高级编程概念。我们的研究为未来 LLMs 向真实世界编程应用的发展提供了可行的见解。我们的基准测试可在 https://github.com/open-compass/DevBench 上获得。
  • 图表
  • 解决问题
    提出一种名为DevBench的综合性基准测试,以评估大型语言模型在软件开发生命周期的各个阶段中的编码能力,包括软件设计、环境设置、实现、验收测试和单元测试等方面。
  • 关键思路
    DevBench是一个全面的基准测试,可以评估LLMs在实际编程活动中的各个阶段的表现,包括复杂代码库的理解、编译过程的管理和高级编程概念的掌握等方面。
  • 其它亮点
    论文使用高质量的数据集和为每个任务精心设计和验证的指标,涵盖了多种编程语言和领域。实验结果表明,包括GPT-4-Turbo在内的当前LLMs无法解决DevBench中提出的挑战。研究还发现,模型难以理解代码库中的复杂结构,管理编译过程和掌握高级编程概念。DevBench基准测试的开源代码可在https://github.com/open-compass/DevBench上获得。
  • 相关研究
    最近的相关研究主要集中在单一任务的基准测试上,如单文件代码生成或存储库问题调试等方面。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论