Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks

Ibrahim Abdelaziz ,

Kinjal Basu ,

Mayank Agarwal ,

Sadhana Kumaravel ,

Matthew Stallone ,

Rameswar Panda ,

Yara Rizk ,

GP Bhargav ,

Maxwell Crouse ,

Chulaka Gunasekara ,

Shajith Ikbal ,

Sachin Joshi ,

Hima Karanam ,

Vineet Kumar ,

Asim Munawar ,

Sumit Neelam ,

Dinesh Raghu ,

Udit Sharma ,

Adriana Meza Soria ,

Dheeraj Sreedhar ,

Praveen Venkateswaran ,

Merve Unuvar ,

David Cox ,

Salim Roukos ,

Luis Lastras ,

Pavan Kapanipathi

大语言模型(LLMs)最近在作为代理系统的骨干方面表现出了巨大的潜力，如它们在SWE-Bench和Agent-Bench等多方面、具有挑战性的基准测试中的表现所示。然而，要实现LLMs作为自主代理的真正潜力，它们必须学会识别、调用和与外部工具和应用程序接口(APIs)进行交互，以完成复杂任务。这些任务统称为函数调用。赋予LLMs函数调用能力带来了许多优势，例如可以访问数据库和知识源中的当前和特定领域的信息，以及可以将可靠执行的任务外包给工具，例如Python解释器或计算器。虽然在LLMs的函数调用方面已经取得了重大进展，但仍缺乏像GPT、Claude和Gemini这样的专有LLMs的开放模型。因此，在这项工作中，我们引入了GRANITE-20B-FUNCTIONCALLING模型，该模型在Apache 2.0许可下进行。该模型使用多任务训练方法对函数调用中涵盖的七个基本任务进行训练，这些任务包括嵌套函数调用、函数链接、并行函数、函数名称检测、参数-值对检测、下一个最佳函数和响应生成。我们对多个域外数据集进行了全面评估，将GRANITE-20B-FUNCTIONCALLING与其他15个最佳专有和开放模型进行比较。GRANITE-20B-FUNCTIONCALLING在伯克利函数调用排行榜中的所有开放模型中提供了最佳性能，并列第四。由于使用了多种任务和数据集来训练我们的模型，我们展示了GRANITE-20B-FUNCTIONCALLING在七个不同的评估数据集上具有更好的泛化能力。

Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks

评论