NEW

ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks

Yuliang Liu ,

Xiangru Tang ,

Zefan Cai ,

Junjie Lu ,

Yichi Zhang ,

Yanjun Shao ,

Zexuan Deng ,

Helan Hu ,

Zengxian Yang ,

Kaikai An ,

Ruijun Huang ,

Shuzheng Si ,

Sheng Chen ,

Haozhe Zhao ,

Zhengliang Li ,

Liang Chen ,

Yiming Zong ,

Yan Wang ,

Tianyu Liu ,

Zhiwei Jiang ,

Baobao Chang ,

Yujia Qin ,

Wangchunshu Zhou ,

Yilun Zhao ,

Arman Cohan ,

Mark Gerstein

热度 330

2023年11月16日

简介

大型语言模型在代码生成方面表现出了很好的性能，但是它们在实际应用中存在着相当大的差距，主要是由于实际编程依赖于预先存在的库。这项工作旨在提出一个新的评估设置，其中大型语言模型使用开源库完成机器学习任务，而不是从头开始评估它们生成的代码。因此，我们提出了 ML-Bench，这是一个广泛的基准测试，用于评估大型语言模型利用开源库中现有函数的效果。该基准测试包含了10044个样本，涵盖了14个著名的机器学习GitHub库中的130个任务。在这种设置下，给定一个特定的机器学习任务指令和相应的README，大型语言模型被要求生成完成任务的代码。这需要理解交织着长篇语言和代码的文档，以及理解复杂的跨文件代码结构，引入了新的挑战。值得注意的是，虽然 GPT-4 在其他大型语言模型中表现出了显着的改进，但它只完成了39.73％的任务，留下了巨大的改进空间。我们通过提出 ML-Agent 来解决这些挑战，该代理被设计为能够有效地浏览代码库、定位文档、检索代码和生成可执行代码。实证结果表明，建立在 GPT-4 之上的 ML-Agent 取得了进一步的改进。代码、数据和模型可在 \url{https://ml-bench.github.io/} 上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型语言模型在利用开源库完成机器学习任务方面的有效性
关键思路

提出了一个新的评估框架ML-Bench，旨在评估LLMs在利用开源库完成机器学习任务方面的表现。同时提出了ML-Agent来解决跨文件代码结构的理解和代码生成问题。
其它亮点

ML-Bench是一个包含10044个样本的广泛基准，涵盖了14个重要的机器学习GitHub存储库中的130个任务。实验结果表明，ML-Agent在GPT-4的基础上进一步提高了模型的性能。
相关研究

最近的相关研究包括：1. CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation; 2. Deep Code Comment Generation; 3. CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing.

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问