APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets

Zuxin Liu ,
Thai Hoang ,
Jianguo Zhang ,
Ming Zhu ,
Tian Lan ,
Shirley Kokane ,
Juntao Tan ,
Weiran Yao ,
Zhiwei Liu ,
Yihao Feng ,
Rithesh Murthy ,
Liangwei Yang ,
Silvio Savarese ,
Juan Carlos Niebles ,
Huan Wang ,
Shelby Heinecke ,
Caiming Xiong
3267
热度
2024年06月26日
  • 简介
    本文介绍了一种名为APIGen的自动数据生成流水线,旨在为函数调用应用程序合成可验证的高质量数据集。我们利用APIGen和21个不同类别的3,673个可执行API来以可扩展和结构化的方式生成多样化的函数调用数据集。我们的数据集中的每个数据都经过了三个层次的验证:格式检查、实际函数执行和语义验证,确保其可靠性和正确性。我们展示了使用我们精心策划的数据集训练的模型,即使只有7B个参数,也可以在Berkeley Function-Calling Benchmark上实现最先进的性能,优于多个GPT-4模型。此外,我们的1B模型表现出色,超越了GPT-3.5-Turbo和Claude-3 Haiku。我们发布了一个包含60,000个高质量条目的数据集,旨在推动函数调用代理领域的发展。该数据集可在Huggingface上获得:https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k,以及项目主页:https://apigen-pipeline.github.io/。
  • 图表
  • 解决问题
    本论文旨在解决函数调用应用程序中数据集多样性、可靠性和高质量的问题,提出了一种自动化数据生成管道APIGen,旨在以可扩展和结构化的方式生成多样的函数调用数据集。
  • 关键思路
    APIGen通过三个层次的验证(格式检查、实际函数执行和语义验证)确保数据集的可靠性和正确性,并证明即使只有7B参数,使用他们精心策划的数据集训练的模型也可以在Berkeley函数调用基准测试中实现最先进的性能,超越多个GPT-4模型。
  • 其它亮点
    本论文通过收集3673个可执行API,以可扩展和结构化的方式生成多样的函数调用数据集,证明了即使只有7B参数,使用他们精心策划的数据集训练的模型也可以在Berkeley函数调用基准测试中实现最先进的性能,超越多个GPT-4模型。此外,他们的1B模型也表现出色,超越了GPT-3.5-Turbo和Claude-3 Haiku。作者还发布了一个包含60000个高质量条目的数据集,旨在推动函数调用代理领域的发展。
  • 相关研究
    在此领域的相关研究中,最近的工作包括《GPT-4:一种基于深度学习的通用语言模型》、《GPT-3.5-Turbo:一种高效的通用语言模型》和《Claude-3 Haiku:一种基于神经网络的语言模型》,这些研究都关注于语言模型的性能提升。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论