NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts

简介

大型语言模型（LLMs）表现出了生成生产活动代码的强大能力。然而，当前的代码综合基准，如HumanEval、MBPP和DS-1000，主要面向算法和数据科学入门任务，不足以满足实际编码中普遍存在的具有挑战性的要求。为了填补这一空白，我们提出了NaturalCodeBench（NCB），这是一个具有挑战性的代码基准，旨在反映实际编码任务中的复杂性和多样性。NCB包括402个高质量的Python和Java问题，从在线编码服务的自然用户查询中精心选择，涵盖6个不同的领域。鉴于为实际查询创建测试案例的非凡困难，我们还引入了半自动化管道，以提高测试案例构建的效率。与手动解决方案相比，它的效率提高了4倍以上。我们对39个LLMs进行的系统实验发现，在具有接近HumanEval分数的模型之间，NCB上的性能差距仍然可能很大，表明缺乏对实际代码综合场景的关注或对HumanEval过度规定的优化。另一方面，即使是表现最佳的GPT-4，在NCB上仍然远远不能令人满意。评估工具包和开发集可在https://github.com/THUDM/NaturalCodeBench上获得。
图表
解决问题

论文旨在解决当前代码合成基准测试任务（如HumanEval、MBPP和DS-1000）无法满足实际编码需求的问题，提出了一个名为NaturalCodeBench（NCB）的具有挑战性的代码基准测试任务。该任务包含402个Python和Java问题，涵盖了6个不同领域，从在线编码服务的自然用户查询中精选而来。
关键思路

论文提出了一种半自动化的测试用例构建流程，提高了测试用例构建的效率，同时通过对39个LLMs的实验发现，即使HumanEval得分相近的模型之间在NCB上的表现差距仍然显著，表明当前模型在实际代码合成场景下的表现仍有待提高。
其它亮点

论文提出的NCB基准测试任务具有挑战性和实际意义，同时介绍了半自动化的测试用例构建流程，提高了测试效率。实验结果显示，当前LLMs在实际代码合成场景下的表现仍有待提高。
相关研究

近期相关研究包括：1. HumanEval: An Evaluation Protocol for Generative Models in Natural Language Understanding（ICLR 2020）；2. MBPP: A Benchmark and Evaluation for Model-Based Program Synthesis（ICLR 2021）；3. DS-1000: A Large-Scale Dataset for Program Synthesis and Induction（arXiv 2020）等。

NaturalCodeBench: Examining Coding Performance Mismatch on HumanEval and Natural User Prompts

评论