- 简介大型语言模型(LLMs)表现出了生成生产活动代码的强大能力。然而,当前的代码综合基准,如HumanEval、MBPP和DS-1000,主要面向算法和数据科学入门任务,不足以满足实际编码中普遍存在的具有挑战性的要求。为了填补这一空白,我们提出了NaturalCodeBench(NCB),这是一个具有挑战性的代码基准,旨在反映实际编码任务中的复杂性和多样性。NCB包括402个高质量的Python和Java问题,从在线编码服务的自然用户查询中精心选择,涵盖6个不同的领域。鉴于为实际查询创建测试案例的非凡困难,我们还引入了半自动化管道,以提高测试案例构建的效率。与手动解决方案相比,它的效率提高了4倍以上。我们对39个LLMs进行的系统实验发现,在具有接近HumanEval分数的模型之间,NCB上的性能差距仍然可能很大,表明缺乏对实际代码综合场景的关注或对HumanEval过度规定的优化。另一方面,即使是表现最佳的GPT-4,在NCB上仍然远远不能令人满意。评估工具包和开发集可在https://github.com/THUDM/NaturalCodeBench上获得。
- 图表
- 解决问题论文旨在解决当前代码合成基准测试任务(如HumanEval、MBPP和DS-1000)无法满足实际编码需求的问题,提出了一个名为NaturalCodeBench(NCB)的具有挑战性的代码基准测试任务。该任务包含402个Python和Java问题,涵盖了6个不同领域,从在线编码服务的自然用户查询中精选而来。
- 关键思路论文提出了一种半自动化的测试用例构建流程,提高了测试用例构建的效率,同时通过对39个LLMs的实验发现,即使HumanEval得分相近的模型之间在NCB上的表现差距仍然显著,表明当前模型在实际代码合成场景下的表现仍有待提高。
- 其它亮点论文提出的NCB基准测试任务具有挑战性和实际意义,同时介绍了半自动化的测试用例构建流程,提高了测试效率。实验结果显示,当前LLMs在实际代码合成场景下的表现仍有待提高。
- 近期相关研究包括:1. HumanEval: An Evaluation Protocol for Generative Models in Natural Language Understanding(ICLR 2020);2. MBPP: A Benchmark and Evaluation for Model-Based Program Synthesis(ICLR 2021);3. DS-1000: A Large-Scale Dataset for Program Synthesis and Induction(arXiv 2020)等。
沙发等你来抢
去评论
评论
沙发等你来抢