CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

简介

大型语言模型（LLMs）用于代码的应用正在快速发展，其中代码编辑是一个关键能力。我们介绍了CodeEditorBench，这是一个评估框架，旨在严格评估LLMs在代码编辑任务中的性能，包括调试、翻译、优化和需求切换。与现有的仅关注代码生成的基准不同，CodeEditorBench强调软件开发的实际场景和实际方面。我们从五个来源策划了各种编程语言、复杂程度和编辑任务的不同编码挑战和场景。19个LLMs的评估显示，闭源模型（特别是Gemini-Ultra和GPT-4）在CodeEditorBench中优于开源模型，突显出基于问题类型和提示敏感性的模型性能差异。CodeEditorBench旨在通过提供一个强大的平台来评估代码编辑能力，促进LLMs的进步。我们将发布所有提示和数据集，以便社区扩展数据集并评估新兴LLMs。通过引入CodeEditorBench，我们为LLMs在代码编辑方面的进步做出了贡献，并为研究人员和实践者提供了有价值的资源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型语言模型在代码编辑任务中的表现，包括调试、翻译、改进和需求转换等实际软件开发中的场景。
关键思路

引入CodeEditorBench评估框架，强调实际软件开发中的场景，并对19个大型语言模型进行了评估，发现闭源模型在某些问题类型和提示敏感性方面表现更好。
其它亮点

CodeEditorBench包括来自五个来源的多样化编码挑战和场景，评估19个大型语言模型的性能，发现闭源模型表现更好，提供了数据集和基准，以促进大型语言模型在代码编辑中的发展。
相关研究

最近的相关研究主要集中在大型语言模型的代码生成方面，如GPT-3等。

CodeEditorBench: Evaluating Code Editing Capability of Large Language Models

提问交流

提问交流