- 简介自然语言处理(NLP)领域的大型语言模型(LLMs)的最新进展已经极大地推动了自动化软件工程的发展。虽然当前的基准测试已经显示出LLMs可以像人类开发人员一样执行各种软件工程任务,但是它们大部分的评估仅限于短小且自包含的算法任务。解决具有挑战性和实际意义的编程任务需要能够利用多种函数调用作为工具,以高效地实现数据分析和Web开发等功能。此外,使用多个工具来解决一个任务需要精确理解复杂的指令,需要组合推理。同时满足这两个特征对LLMs来说可能是一个巨大的挑战。为了评估LLMs在解决具有挑战性和实际意义的编程任务方面的表现,我们引入了一个名为Bench的基准测试,该测试要求LLMs从139个库和7个领域中调用多个函数调用作为工具来完成1140个细粒度的编程任务。为了严格评估LLMs,每个编程任务包含5.6个测试用例,平均分支覆盖率为99%。此外,我们提出了Bench的自然语言导向变体Benchi,它可以自动将原始的文档字符串转换为仅包含必要信息的简短指令。我们对60个LLMs进行了广泛的评估,结果表明,LLMs还不能精确地遵循复杂的指令来使用函数调用,得分最高只有60%,显著低于人类的97%的表现。这些结果强调了需要在这个领域进一步取得进展的必要性。
- 图表
- 解决问题评估大型语言模型在解决实际编程任务方面的能力
- 关键思路提出了Bench基准来评估LLMs在使用多个函数调用作为工具解决具有挑战性和实用性的编程任务方面的能力,结果表明LLMs在这方面的表现仍然需要进一步提高。
- 其它亮点Bench基准包含了139个库和7个领域的1,140个编程任务,每个任务都包含5.6个测试用例,平均分支覆盖率为99%。作者还提出了Benchi变体来自动将原始docstrings转换为简短的指令。作者评估了60个LLMs的表现,发现它们在使用函数调用方面的表现仍然需要进一步提高。
- 最近的相关研究包括《GPT-3: Language Models are Few-Shot Learners》和《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》。
沙发等你来抢
去评论
评论
沙发等你来抢