LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

简介

应用大型语言模型（LLMs）于与代码相关的应用已成为一个突出的领域，吸引了学术界和工业界的重视。然而，随着新的和改进的LLMs的开发，现有的评估基准（例如HumanEval、MBPP）已不再足以评估它们的能力。在这项工作中，我们提出了LiveCodeBench，这是一个全面且无污染的LLMs代码评估方法，它从三个竞赛平台（LeetCode、AtCoder和CodeForces）的比赛中不断收集新的问题。值得注意的是，我们的基准还关注更广泛的代码相关能力，例如自我修复、代码执行和测试输出预测，而不仅仅是代码生成。目前，LiveCodeBench托管了400个高质量的编码问题，这些问题是在2023年5月至2024年2月之间发布的。我们在LiveCodeBench上评估了9个基本LLMs和20个指令调整LLMs。我们提供了关于污染、整体性能比较、现有基准中潜在的过度拟合以及个体模型比较的经验性发现。我们将发布所有提示和模型完成以供进一步社区分析，并提供一个通用工具包，用于添加新的场景和模型。
图表
解决问题

LiveCodeBench: A Comprehensive and Contamination-free Evaluation of Large Language Models for Code
关键思路

使用LiveCodeBench评估大型语言模型在代码方面的能力，包括自我修复、代码执行和测试输出预测等多个方面，提供了一个全面和无污染的评估基准
其它亮点

LiveCodeBench收集了来自LeetCode、AtCoder和CodeForces三个竞赛平台的高质量编码问题，目前拥有四百个问题，涵盖了代码相关能力的广泛范围，评估了9个基础LLM和20个指令调整的LLM。论文还提供了所有提示和模型完成的数据集和工具包，以供进一步社区分析。
相关研究

最近在这个领域中，也有一些相关的研究，如HumanEval和MBPP等评估基准，但这些基准已经不足以评估新的和改进的LLMs的能力。

LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

评论