The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

向作者提问

NEW

简介

现实世界中的语言智能体必须能够处理跨越多种应用程序的复杂、多步骤工作流。例如，一个智能体可能需要协调日历和文件系统来管理电子邮件，或监控生产数据库，根据操作手册检测异常并生成报告。然而，现有的语言智能体基准测试通常局限于狭窄领域或简化任务，缺乏评估智能体在真实场景中表现所需的多样性、真实性和长周期复杂性。为弥补这一不足，我们推出了“工具十项全能”（Tool Decathlon，简称 Toolathlon），这是一个面向语言智能体的基准测试，提供多样化的应用程序与工具、贴近现实的环境设置以及基于实际执行的可靠评估机制。Toolathlon 涵盖了 32 个软件应用和 604 种工具，范围从 Google Calendar 和 Notion 等日常平台，到 WooCommerce、Kubernetes 和 BigQuery 等专业工具。其中大多数工具基于一套高质量的模型上下文协议（Model Context Protocol, MCP）服务器构建，部分由我们自行修订或实现。与以往研究主要关注功能真实性但环境状态多样性有限不同，我们提供了来自真实软件系统的初始环境状态，例如包含数十名学生的 Canvas 课程页面，或真实的财务电子表格。该基准共包含 108 个通过人工收集或精心设计的任务，平均每个任务需与多个应用程序交互约 20 轮才能完成。每个任务均可通过专用的评估脚本进行严格验证。对当前最先进模型的全面评估揭示了它们的显著不足：表现最佳的模型 Claude-4.5-Sonnet 的成功率仅为 38.6%，平均调用工具 20.2 次；而领先的开源权重模型 DeepSeek-V3.2-Exp 的成功率仅为 20.1%。我们期望 Toolathlon 能够推动更具能力的语言智能体的发展，以胜任现实世界中长周期、多步骤的复杂任务执行。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有语言代理（language agent）基准测试大多局限于狭窄领域或简化任务，缺乏对真实世界复杂、多步骤、跨应用长周期任务的多样性、现实性和执行复杂性的评估。因此，难以有效衡量语言代理在真实场景中的实际表现能力。这是一个尚未被充分解决的新问题，尤其是在涉及多样化软件生态和真实环境状态的情况下。
关键思路

提出Toolathlon（工具十项全能）基准，涵盖32个真实软件应用和604个工具，基于高质量Model Context Protocol（MCP）服务器构建，引入真实初始环境状态（如含数十名学生的课程系统、真实财务表格），并通过可验证的执行脚本对跨多个应用、平均约20步的长周期任务进行严格评估。其核心创新在于将功能真实性与环境多样性结合，填补了当前基准在现实性与复杂性上的空白。
其它亮点

共包含108个手工收集或设计的任务，覆盖日常（如Google Calendar、Notion）到专业平台（如Kubernetes、BigQuery）；所有任务均可通过专用评估脚本自动验证；实验结果显示当前SOTA模型表现不佳（Claude-4.5-Sonnet仅38.6%成功率，DeepSeek-V3.2-Exp为20.1%），凸显挑战性；MCP服务器实现可能开源或标准化，具备高复现价值；该基准为未来语言代理研究提供了极具挑战性的测试平台，值得深入探索鲁棒性、长期记忆与跨应用推理能力。
相关研究

相关研究包括：'WebArena: A Web Environment for Building and Evaluating AI Agents'（2023），'Gorilla: On-device LLM for Tool Usage'（2023），'AgentBoard: Evaluating LLM Agents in Realistic Environments'（2024），'API-Bank: A Benchmark for Tool-Augmented LLMs'（2023），以及'Model Context Protocol (MCP)' 相关工作（2024）。这些研究推动了工具使用与代理评估的发展，但多数仍限于模拟环境或短周期任务，Toolathlon在环境真实性和任务长度上实现了显著超越。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问