大型语言模型是代码生成的最先进评估器。

Large Language Models Are State-of-the-Art Evaluators of Code Generation

解决问题：本篇论文旨在解决代码生成任务中评估生成代码质量的问题。当前，基于诸如BLEU的基于令牌匹配的度量方法在代码生成任务中与人类实践者的相关性较弱，而使用人工编写的测试套件来评估功能正确性在资源有限的领域中也具有挑战性。因此，本文提出了一种基于GPT-3.5的新的评估框架，以解决这些问题。

关键思路：本文提出的评估框架基于GPT-3.5，通过对生成代码进行评估来解决代码生成任务中的评估问题。与现有的基于预训练模型的CodeBERTScore度量方法相比，本文提出的框架在不需要测试套件或参考的情况下实现了与功能正确性和人类偏好的更高相关性。本文的思路在于将自然语言生成领域的新进展应用于代码生成任务中的评估问题，从而提高了评估的准确性和一致性。

其他亮点：本文的实验结果表明，所提出的评估框架在不同的编程语言和任务中都能够提供高水平的准确性和一致性，并超越了现有的CodeBERTScore度量方法。本文还将评估框架和数据集公开发布，以鼓励更多的研究者在代码生成评估方面进行进一步研究。

关于作者：本文的主要作者是Terry Yue Zhuo。根据数据库中的信息，Terry Yue Zhuo目前是卡内基梅隆大学的博士生，他的研究方向包括自然语言处理和机器学习。他之前的代表作包括“Learning to Generate One-sentence Biographies from Wikidata”、“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”等。

相关研究：近期的相关研究包括“CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing”（Zhangyin Feng等，微软）、“CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation”（Dongxu Zhang等，清华大学）、“Learning to Generate Pseudo-code from Source Code Using Statistical Machine Translation”（Srinivasan Iyer等，IBM研究院）等。

论文摘要：大型语言模型是代码生成的最新评估工具作者：Terry Yue Zhuo 自然语言生成领域的最新进展促进了使用大型语言模型来评估生成文本的质量。虽然这些模型在机器翻译和摘要等任务中显示出了良好的结果，但是在没有人类介入的情况下，它们在代码生成任务中的适用性仍然有限。这些任务所需的编程概念的复杂性使得开发与人类判断相一致的评估度量变得困难。基于标记匹配的度量方法（例如BLEU）在代码生成任务中与人类从业者的相关性较弱。此外，在资源匮乏的领域中，利用人类编写的测试套件评估功能正确性也可能具有挑战性。为了克服这些障碍，我们提出了一种基于GPT-3.5（\texttt{GPT-3.5-turbo}）的新的代码生成评估框架。我们的框架通过实现与功能正确性和人类偏好的相关性，克服了现有方法的局限性，而无需测试神谕或参考。我们在两个不同的任务和四种编程语言上评估了我们框架的有效性，并将其性能与依赖于预训练模型的最新的CodeBERTScore度量进行了比较。我们的结果表明，我们的框架超越了CodeBERTScore，在各种编程语言和任务中提供了高水平的准确性和一致性。我们还向公众提供了我们的评估框架和数据集，网址为\url{https://github.com/terryyz/llm-code-eval}，鼓励进一步研究代码生成的评估。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

大型语言模型是代码生成的最先进评估器。

评论