- 简介研究人员一直致力于提高大型语言模型在与代码相关的任务上的性能,因为这些任务具有实际重要性。尽管性能通常是使用公共基准数据集进行评估的,但现有数据集并未考虑“版本”这一在专业软件开发中至关重要的概念。本文介绍了VersiCode,这是第一个全面的数据集,旨在评估大型语言模型生成特定库版本可验证代码的能力。VersiCode包括300个库,涵盖9年内超过2,000个版本。我们设计了两个专门的评估任务:版本特定代码完成(VSCC)和版本感知代码编辑(VACE)。进行了全面的实验,以评估LLM的性能,揭示了这些任务和VersiCode的具有挑战性的本质,即即使是最先进的LLM也难以生成版本正确的代码。该数据集以及所提出的任务,揭示了LLM在处理版本特定代码生成方面的能力和局限性,并为进一步研究开辟了一个重要的新领域。资源可在https://github.com/wutong8023/VersiCode找到。
- 图表
- 解决问题本篇论文旨在解决大型语言模型在代码相关任务中的性能问题,特别是针对版本的问题。作者提出了VersiCode数据集,以评估大型语言模型在特定库版本下生成可验证代码的能力。
- 关键思路本文提出了第一个全面的数据集VersiCode,设计了两个专门的评估任务,即版本特定代码完成(VSCC)和版本感知代码编辑(VACE)。通过实验,发现即使是最先进的大型语言模型也难以生成与版本相符的代码。
- 其它亮点本文的亮点包括VersiCode数据集的设计和两个评估任务的提出。实验结果表明,当前大型语言模型在处理版本特定代码生成方面存在挑战,需要进一步研究。作者提供了数据集和代码资源,供其他研究者使用和参考。
- 在这个领域的相关研究包括CodeXGLUE和CodeSearchNet等数据集,以及一些针对代码生成的大型语言模型,如GPT-2和CodeBERT。
沙发等你来抢
去评论
评论
沙发等你来抢