- 简介大型语言模型(LLMs)用于代码的应用正在快速发展,其中代码编辑是一个关键能力。我们介绍了CodeEditorBench,这是一个评估框架,旨在严格评估LLMs在代码编辑任务中的性能,包括调试、翻译、优化和需求切换。与现有的仅关注代码生成的基准不同,CodeEditorBench强调软件开发的实际场景和实际方面。我们从五个来源策划了各种编程语言、复杂程度和编辑任务的不同编码挑战和场景。19个LLMs的评估显示,闭源模型(特别是Gemini-Ultra和GPT-4)在CodeEditorBench中优于开源模型,突显出基于问题类型和提示敏感性的模型性能差异。CodeEditorBench旨在通过提供一个强大的平台来评估代码编辑能力,促进LLMs的进步。我们将发布所有提示和数据集,以便社区扩展数据集并评估新兴LLMs。通过引入CodeEditorBench,我们为LLMs在代码编辑方面的进步做出了贡献,并为研究人员和实践者提供了有价值的资源。
- 图表
- 解决问题评估大型语言模型在代码编辑任务中的表现,包括调试、翻译、改进和需求转换等实际软件开发中的场景。
- 关键思路引入CodeEditorBench评估框架,强调实际软件开发中的场景,并对19个大型语言模型进行了评估,发现闭源模型在某些问题类型和提示敏感性方面表现更好。
- 其它亮点CodeEditorBench包括来自五个来源的多样化编码挑战和场景,评估19个大型语言模型的性能,发现闭源模型表现更好,提供了数据集和基准,以促进大型语言模型在代码编辑中的发展。
- 最近的相关研究主要集中在大型语言模型的代码生成方面,如GPT-3等。


提问交流