NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts

2024年05月07日
  • 简介
    大型语言模型(LLMs)表现出了生成生产活动代码的强大能力。然而,当前的代码综合基准,如HumanEval、MBPP和DS-1000,主要面向算法和数据科学入门任务,不足以满足实际编码中普遍存在的具有挑战性的要求。为了填补这一空白,我们提出了NaturalCodeBench(NCB),这是一个具有挑战性的代码基准,旨在反映实际编码任务中的复杂性和多样性。NCB包括402个高质量的Python和Java问题,从在线编码服务的自然用户查询中精心选择,涵盖6个不同的领域。鉴于为实际查询创建测试案例的非凡困难,我们还引入了半自动化管道,以提高测试案例构建的效率。与手动解决方案相比,它的效率提高了4倍以上。我们对39个LLMs进行的系统实验发现,在具有接近HumanEval分数的模型之间,NCB上的性能差距仍然可能很大,表明缺乏对实际代码综合场景的关注或对HumanEval过度规定的优化。另一方面,即使是表现最佳的GPT-4,在NCB上仍然远远不能令人满意。评估工具包和开发集可在https://github.com/THUDM/NaturalCodeBench上获得。
  • 图表
  • 解决问题
    论文旨在解决当前代码合成基准测试任务(如HumanEval、MBPP和DS-1000)无法满足实际编码需求的问题,提出了一个名为NaturalCodeBench(NCB)的具有挑战性的代码基准测试任务。该任务包含402个Python和Java问题,涵盖了6个不同领域,从在线编码服务的自然用户查询中精选而来。
  • 关键思路
    论文提出了一种半自动化的测试用例构建流程,提高了测试用例构建的效率,同时通过对39个LLMs的实验发现,即使HumanEval得分相近的模型之间在NCB上的表现差距仍然显著,表明当前模型在实际代码合成场景下的表现仍有待提高。
  • 其它亮点
    论文提出的NCB基准测试任务具有挑战性和实际意义,同时介绍了半自动化的测试用例构建流程,提高了测试效率。实验结果显示,当前LLMs在实际代码合成场景下的表现仍有待提高。
  • 相关研究
    近期相关研究包括:1. HumanEval: An Evaluation Protocol for Generative Models in Natural Language Understanding(ICLR 2020);2. MBPP: A Benchmark and Evaluation for Model-Based Program Synthesis(ICLR 2021);3. DS-1000: A Large-Scale Dataset for Program Synthesis and Induction(arXiv 2020)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论