- 简介大语言模型(LLMs)最近在作为代理系统的骨干方面表现出了巨大的潜力,如它们在SWE-Bench和Agent-Bench等多方面、具有挑战性的基准测试中的表现所示。然而,要实现LLMs作为自主代理的真正潜力,它们必须学会识别、调用和与外部工具和应用程序接口(APIs)进行交互,以完成复杂任务。这些任务统称为函数调用。赋予LLMs函数调用能力带来了许多优势,例如可以访问数据库和知识源中的当前和特定领域的信息,以及可以将可靠执行的任务外包给工具,例如Python解释器或计算器。虽然在LLMs的函数调用方面已经取得了重大进展,但仍缺乏像GPT、Claude和Gemini这样的专有LLMs的开放模型。因此,在这项工作中,我们引入了GRANITE-20B-FUNCTIONCALLING模型,该模型在Apache 2.0许可下进行。该模型使用多任务训练方法对函数调用中涵盖的七个基本任务进行训练,这些任务包括嵌套函数调用、函数链接、并行函数、函数名称检测、参数-值对检测、下一个最佳函数和响应生成。我们对多个域外数据集进行了全面评估,将GRANITE-20B-FUNCTIONCALLING与其他15个最佳专有和开放模型进行比较。GRANITE-20B-FUNCTIONCALLING在伯克利函数调用排行榜中的所有开放模型中提供了最佳性能,并列第四。由于使用了多种任务和数据集来训练我们的模型,我们展示了GRANITE-20B-FUNCTIONCALLING在七个不同的评估数据集上具有更好的泛化能力。
- 图表
- 解决问题本文旨在通过训练LLM模型实现函数调用,使其能够识别、调用和与外部工具和API进行交互,从而完成复杂任务。
- 关键思路本文提出了GRANITE-20B-FUNCTIONCALLING模型,通过多任务训练方法在七个基本任务上进行训练,包括嵌套函数调用、函数链、并行函数、函数名检测、参数-值对检测、最佳下一个函数和响应生成。
- 其它亮点本文通过在多个领域的数据集上进行全面评估,展示了GRANITE-20B-FUNCTIONCALLING模型在Berkeley Function Calling Leaderboard上的最佳性能以及更好的泛化能力。该模型的开源代码在Apache 2.0下发布。
- 最近的相关研究包括SWE-Bench和Agent-Bench等基准测试,以及GPT、Claude和Gemini等专有LLM模型。
沙发等你来抢
去评论
评论
沙发等你来抢