- 简介应用大型语言模型(LLMs)于与代码相关的应用已成为一个突出的领域,吸引了学术界和工业界的重视。然而,随着新的和改进的LLMs的开发,现有的评估基准(例如HumanEval、MBPP)已不再足以评估它们的能力。在这项工作中,我们提出了LiveCodeBench,这是一个全面且无污染的LLMs代码评估方法,它从三个竞赛平台(LeetCode、AtCoder和CodeForces)的比赛中不断收集新的问题。值得注意的是,我们的基准还关注更广泛的代码相关能力,例如自我修复、代码执行和测试输出预测,而不仅仅是代码生成。目前,LiveCodeBench托管了400个高质量的编码问题,这些问题是在2023年5月至2024年2月之间发布的。我们在LiveCodeBench上评估了9个基本LLMs和20个指令调整LLMs。我们提供了关于污染、整体性能比较、现有基准中潜在的过度拟合以及个体模型比较的经验性发现。我们将发布所有提示和模型完成以供进一步社区分析,并提供一个通用工具包,用于添加新的场景和模型。
- 图表
- 解决问题LiveCodeBench: A Comprehensive and Contamination-free Evaluation of Large Language Models for Code
- 关键思路使用LiveCodeBench评估大型语言模型在代码方面的能力,包括自我修复、代码执行和测试输出预测等多个方面,提供了一个全面和无污染的评估基准
- 其它亮点LiveCodeBench收集了来自LeetCode、AtCoder和CodeForces三个竞赛平台的高质量编码问题,目前拥有四百个问题,涵盖了代码相关能力的广泛范围,评估了9个基础LLM和20个指令调整的LLM。论文还提供了所有提示和模型完成的数据集和工具包,以供进一步社区分析。
- 最近在这个领域中,也有一些相关的研究,如HumanEval和MBPP等评估基准,但这些基准已经不足以评估新的和改进的LLMs的能力。
沙发等你来抢
去评论
评论
沙发等你来抢