ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents

2024年06月28日
  • 简介
    近年来,将大型语言模型(LLMs)与应用程序接口(APIs)相结合的最新进展引起了学术界和工业界的极大兴趣。这些基于API的代理,利用LLMs的强大自治和规划能力,可以高效地解决需要多步操作的问题。然而,它们通过API处理多维度难度级别、不同类型的任务和真实世界的需求的能力仍然未知。本文介绍了一个大规模基准测试——\textsc{ShortcutsBench},用于全面评估基于API的代理在解决具有不同难度级别、不同任务类型和真实世界需求的任务时的能力。\textsc{ShortcutsBench}包括来自Apple Inc.操作系统的大量真实API,来自快捷方式的精细用户查询,来自快捷方式开发人员的人工标注高质量动作序列,以及有关原始参数类型、枚举参数类型、上一个动作的输出和需要从系统或用户请求必要信息的参数的准确参数填充值。我们使用5个领先的开源(大小>=57B)和4个闭源LLMs(例如Gemini-1.5-Pro和GPT-3.5)构建的代理进行了广泛的评估,结果显示它们在处理与API选择、参数填充和从系统和用户请求必要信息相关的复杂查询方面存在显著的局限性。这些发现突显了基于API的代理在有效地满足真实且复杂的用户查询方面面临的挑战。所有数据集、代码和实验结果将在\url{https://github.com/eachsheep/shortcutsbench}上提供。
  • 图表
  • 解决问题
    本论文旨在介绍一个名为ShortcutsBench的大规模基准测试,用于全面评估基于API的智能代理在解决具有不同难度级别、不同任务类型和真实世界需求的任务时的能力。
  • 关键思路
    本论文提出了一个包含来自苹果操作系统的真实API、来自快捷方式的精炼用户查询、来自快捷方式开发者的人工标注高质量动作序列以及有关基本参数类型、枚举参数类型、来自先前操作的输出以及需要从系统或用户请求必要信息的参数的准确参数填充值的基准测试。通过使用5个领先的开源LLM和4个闭源LLM进行广泛的评估,揭示了API-based代理在处理复杂查询相关的API选择、参数填充和从系统和用户请求必要信息方面存在的显着限制。
  • 其它亮点
    该论文提出了一个新的基准测试,可以全面评估API-based代理在解决具有不同难度级别、不同任务类型和真实世界需求的任务时的能力。实验使用了来自苹果操作系统的真实API、来自快捷方式的精炼用户查询、来自快捷方式开发者的人工标注高质量动作序列以及有关参数填充值的准确信息。论文还揭示了API-based代理在处理复杂查询相关的API选择、参数填充和从系统和用户请求必要信息方面存在的显着限制。
  • 相关研究
    近期在这个领域中,也有一些相关的研究被进行。例如,基于自然语言的API查询方法、基于深度学习的API智能推荐方法等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论