- 简介近年来,用于理解和生成代码的大型语言模型(Code LLMs)取得了巨大进展。随着Code LLMs的快速发展,许多流行的评估基准(例如HumanEval、DS-1000和MBPP)已经出现,以衡量Code LLMs在特定重点的代码生成任务中的表现。然而,它们不足以涵盖Code LLMs的全部预期能力范围,这些能力超越了代码生成,涉及回答各种与编码相关的问题。为了填补这一空白,我们提出了InfiCoder-Eval,这是一个大规模的自由形式问答(QA)基准,用于代码,包括234个精心挑选的高质量Stack Overflow问题,涵盖15种编程语言。为了评估响应正确性,InfiCoder-Eval支持四种无模型度量,并且领域专家精心选择和具体化每个问题的标准。我们对80多个Code LLMs在InfiCoder-Eval上进行了系统评估,得出了一系列有见地的发现。此外,我们的详细分析展示了Code LLMs进一步改进的可能方向。InfiCoder-Eval完全开源,位于https://infi-coder.github.io/inficoder-eval/,并持续维护和扩展,以促进更多科学和系统的实践,用于评估Code LLMs。
- 图表
- 解决问题提出了一个新的针对代码理解和生成的评估基准InfiCoder-Eval,旨在填补现有评估基准的不足,包括对各种编程语言的支持和更广泛的任务覆盖。
- 关键思路提出了一个基于自由形式问答的评估基准InfiCoder-Eval,包含234个来自Stack Overflow的高质量问题,涵盖15种编程语言,支持四种模型无关的度量标准,以评估代码LLMs的能力,包括代码生成和回答编码相关问题。
- 其它亮点该论文提出了一个新的评估基准InfiCoder-Eval,为代码LLMs的评估提供了更全面的任务覆盖和编程语言支持。该基准支持四种模型无关的度量标准,以评估模型的能力。作者还对80多个代码LLMs进行了系统评估,并提出了一些有启示性的发现和改进方向。InfiCoder-Eval是完全开源的,包括数据集和代码。
- 当前研究中的相关工作包括HumanEval、DS-1000和MBPP等评估基准,以及针对代码理解和生成的各种模型的研究。
沙发等你来抢
去评论
评论
沙发等你来抢