DevBench: A Comprehensive Benchmark for Software Development

2024年03月13日
  • 简介
    最近大型语言模型(LLMs)的进展显著提升了它们的编码能力。然而,现有的基准测试主要关注编程的简化或孤立方面,例如单文件代码生成或存储库问题调试,无法衡量真实世界编程活动所提出的全部挑战。为此,我们提出了DevBench,一个全面的基准测试,评估LLMs在软件开发生命周期的各个阶段的表现,包括软件设计、环境设置、实现、验收测试和单元测试。DevBench涵盖了各种编程语言和领域,具有高质量的数据收集,以及经过精心设计和验证的每个任务的指标。实证研究表明,包括GPT-4-Turbo在内的当前LLMs无法解决DevBench提出的挑战。分析表明,模型难以理解存储库中的复杂结构,管理编译过程,并掌握高级编程概念。我们的发现为未来LLMs向真实世界编程应用的发展提供了可操作的见解。我们的基准测试可在https://github.com/open-compass/DevBench上获得。
  • 图表
  • 解决问题
    评估大型语言模型在软件开发生命周期中的应用能力
  • 关键思路
    提出了一个全面的基准测试DevBench,用于评估大型语言模型在软件开发生命周期中的能力
  • 其它亮点
    DevBench涵盖了软件设计、环境设置、实现、验收测试和单元测试等各个方面,使用多种编程语言和领域进行测试,为每个任务设计和验证了度量标准。研究发现当前的大型语言模型在DevBench中无法解决复杂的代码结构、编译过程和高级编程概念等挑战。该基准测试已经开源,可供研究者使用。
  • 相关研究
    最近的相关研究主要集中在大型语言模型的训练、优化和应用等方面,例如GPT-3、GShard等模型的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论