The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

2025年10月29日
  • 简介
    现实世界中的语言智能体必须能够处理跨越多种应用程序的复杂、多步骤工作流。例如,一个智能体可能需要协调日历和文件系统来管理电子邮件,或监控生产数据库,根据操作手册检测异常并生成报告。然而,现有的语言智能体基准测试通常局限于狭窄领域或简化任务,缺乏评估智能体在真实场景中表现所需的多样性、真实性和长周期复杂性。为弥补这一不足,我们推出了“工具十项全能”(Tool Decathlon,简称 Toolathlon),这是一个面向语言智能体的基准测试,提供多样化的应用程序与工具、贴近现实的环境设置以及基于实际执行的可靠评估机制。Toolathlon 涵盖了 32 个软件应用和 604 种工具,范围从 Google Calendar 和 Notion 等日常平台,到 WooCommerce、Kubernetes 和 BigQuery 等专业工具。其中大多数工具基于一套高质量的模型上下文协议(Model Context Protocol, MCP)服务器构建,部分由我们自行修订或实现。与以往研究主要关注功能真实性但环境状态多样性有限不同,我们提供了来自真实软件系统的初始环境状态,例如包含数十名学生的 Canvas 课程页面,或真实的财务电子表格。该基准共包含 108 个通过人工收集或精心设计的任务,平均每个任务需与多个应用程序交互约 20 轮才能完成。每个任务均可通过专用的评估脚本进行严格验证。对当前最先进模型的全面评估揭示了它们的显著不足:表现最佳的模型 Claude-4.5-Sonnet 的成功率仅为 38.6%,平均调用工具 20.2 次;而领先的开源权重模型 DeepSeek-V3.2-Exp 的成功率仅为 20.1%。我们期望 Toolathlon 能够推动更具能力的语言智能体的发展,以胜任现实世界中长周期、多步骤的复杂任务执行。
  • 作者讲解
  • 图表
  • 解决问题
    现有语言代理(language agent)基准测试大多局限于狭窄领域或简化任务,缺乏对真实世界复杂、多步骤、跨应用长周期任务的多样性、现实性和执行复杂性的评估。因此,难以有效衡量语言代理在真实场景中的实际表现能力。这是一个尚未被充分解决的新问题,尤其是在涉及多样化软件生态和真实环境状态的情况下。
  • 关键思路
    提出Toolathlon(工具十项全能)基准,涵盖32个真实软件应用和604个工具,基于高质量Model Context Protocol(MCP)服务器构建,引入真实初始环境状态(如含数十名学生的课程系统、真实财务表格),并通过可验证的执行脚本对跨多个应用、平均约20步的长周期任务进行严格评估。其核心创新在于将功能真实性与环境多样性结合,填补了当前基准在现实性与复杂性上的空白。
  • 其它亮点
    共包含108个手工收集或设计的任务,覆盖日常(如Google Calendar、Notion)到专业平台(如Kubernetes、BigQuery);所有任务均可通过专用评估脚本自动验证;实验结果显示当前SOTA模型表现不佳(Claude-4.5-Sonnet仅38.6%成功率,DeepSeek-V3.2-Exp为20.1%),凸显挑战性;MCP服务器实现可能开源或标准化,具备高复现价值;该基准为未来语言代理研究提供了极具挑战性的测试平台,值得深入探索鲁棒性、长期记忆与跨应用推理能力。
  • 相关研究
    相关研究包括:'WebArena: A Web Environment for Building and Evaluating AI Agents'(2023),'Gorilla: On-device LLM for Tool Usage'(2023),'AgentBoard: Evaluating LLM Agents in Realistic Environments'(2024),'API-Bank: A Benchmark for Tool-Augmented LLMs'(2023),以及'Model Context Protocol (MCP)' 相关工作(2024)。这些研究推动了工具使用与代理评估的发展,但多数仍限于模拟环境或短周期任务,Toolathlon在环境真实性和任务长度上实现了显著超越。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问