- 简介大型语言模型在代码生成方面表现出了很好的性能,但是它们在实际应用中存在着相当大的差距,主要是由于实际编程依赖于预先存在的库。这项工作旨在提出一个新的评估设置,其中大型语言模型使用开源库完成机器学习任务,而不是从头开始评估它们生成的代码。因此,我们提出了 ML-Bench,这是一个广泛的基准测试,用于评估大型语言模型利用开源库中现有函数的效果。该基准测试包含了10044个样本,涵盖了14个著名的机器学习GitHub库中的130个任务。在这种设置下,给定一个特定的机器学习任务指令和相应的README,大型语言模型被要求生成完成任务的代码。这需要理解交织着长篇语言和代码的文档,以及理解复杂的跨文件代码结构,引入了新的挑战。值得注意的是,虽然 GPT-4 在其他大型语言模型中表现出了显着的改进,但它只完成了39.73%的任务,留下了巨大的改进空间。我们通过提出 ML-Agent 来解决这些挑战,该代理被设计为能够有效地浏览代码库、定位文档、检索代码和生成可执行代码。实证结果表明,建立在 GPT-4 之上的 ML-Agent 取得了进一步的改进。代码、数据和模型可在 \url{https://ml-bench.github.io/} 上获得。
- 图表
- 解决问题评估大型语言模型在利用开源库完成机器学习任务方面的有效性
- 关键思路提出了一个新的评估框架ML-Bench,旨在评估LLMs在利用开源库完成机器学习任务方面的表现。同时提出了ML-Agent来解决跨文件代码结构的理解和代码生成问题。
- 其它亮点ML-Bench是一个包含10044个样本的广泛基准,涵盖了14个重要的机器学习GitHub存储库中的130个任务。实验结果表明,ML-Agent在GPT-4的基础上进一步提高了模型的性能。
- 最近的相关研究包括:1. CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation; 2. Deep Code Comment Generation; 3. CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing.
沙发等你来抢
去评论
评论
沙发等你来抢