InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models

简介

近年来，用于理解和生成代码的大型语言模型（Code LLMs）取得了巨大进展。随着Code LLMs的快速发展，许多流行的评估基准（例如HumanEval、DS-1000和MBPP）已经出现，以衡量Code LLMs在特定重点的代码生成任务中的表现。然而，它们不足以涵盖Code LLMs的全部预期能力范围，这些能力超越了代码生成，涉及回答各种与编码相关的问题。为了填补这一空白，我们提出了InfiCoder-Eval，这是一个大规模的自由形式问答（QA）基准，用于代码，包括234个精心挑选的高质量Stack Overflow问题，涵盖15种编程语言。为了评估响应正确性，InfiCoder-Eval支持四种无模型度量，并且领域专家精心选择和具体化每个问题的标准。我们对80多个Code LLMs在InfiCoder-Eval上进行了系统评估，得出了一系列有见地的发现。此外，我们的详细分析展示了Code LLMs进一步改进的可能方向。InfiCoder-Eval完全开源，位于https://infi-coder.github.io/inficoder-eval/，并持续维护和扩展，以促进更多科学和系统的实践，用于评估Code LLMs。
图表
解决问题

提出了一个新的针对代码理解和生成的评估基准InfiCoder-Eval，旨在填补现有评估基准的不足，包括对各种编程语言的支持和更广泛的任务覆盖。
关键思路

提出了一个基于自由形式问答的评估基准InfiCoder-Eval，包含234个来自Stack Overflow的高质量问题，涵盖15种编程语言，支持四种模型无关的度量标准，以评估代码LLMs的能力，包括代码生成和回答编码相关问题。
其它亮点

该论文提出了一个新的评估基准InfiCoder-Eval，为代码LLMs的评估提供了更全面的任务覆盖和编程语言支持。该基准支持四种模型无关的度量标准，以评估模型的能力。作者还对80多个代码LLMs进行了系统评估，并提出了一些有启示性的发现和改进方向。InfiCoder-Eval是完全开源的，包括数据集和代码。
相关研究

当前研究中的相关工作包括HumanEval、DS-1000和MBPP等评估基准，以及针对代码理解和生成的各种模型的研究。

InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models

评论