ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks

2023年11月16日
  • 简介
    大型语言模型在代码生成方面表现出了很好的性能,但是它们在实际应用中存在着相当大的差距,主要是由于实际编程依赖于预先存在的库。这项工作旨在提出一个新的评估设置,其中大型语言模型使用开源库完成机器学习任务,而不是从头开始评估它们生成的代码。因此,我们提出了 ML-Bench,这是一个广泛的基准测试,用于评估大型语言模型利用开源库中现有函数的效果。该基准测试包含了10044个样本,涵盖了14个著名的机器学习GitHub库中的130个任务。在这种设置下,给定一个特定的机器学习任务指令和相应的README,大型语言模型被要求生成完成任务的代码。这需要理解交织着长篇语言和代码的文档,以及理解复杂的跨文件代码结构,引入了新的挑战。值得注意的是,虽然 GPT-4 在其他大型语言模型中表现出了显着的改进,但它只完成了39.73%的任务,留下了巨大的改进空间。我们通过提出 ML-Agent 来解决这些挑战,该代理被设计为能够有效地浏览代码库、定位文档、检索代码和生成可执行代码。实证结果表明,建立在 GPT-4 之上的 ML-Agent 取得了进一步的改进。代码、数据和模型可在 \url{https://ml-bench.github.io/} 上获得。
  • 图表
  • 解决问题
    评估大型语言模型在利用开源库完成机器学习任务方面的有效性
  • 关键思路
    提出了一个新的评估框架ML-Bench,旨在评估LLMs在利用开源库完成机器学习任务方面的表现。同时提出了ML-Agent来解决跨文件代码结构的理解和代码生成问题。
  • 其它亮点
    ML-Bench是一个包含10044个样本的广泛基准,涵盖了14个重要的机器学习GitHub存储库中的130个任务。实验结果表明,ML-Agent在GPT-4的基础上进一步提高了模型的性能。
  • 相关研究
    最近的相关研究包括:1. CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation; 2. Deep Code Comment Generation; 3. CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing.
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论