SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

2026年02月13日
  • 简介
    智能体技能(Agent Skills)是一类结构化的程序性知识封装,用于在推理阶段增强大语言模型(LLM)智能体的能力。尽管其应用正迅速普及,但目前尚无统一标准来衡量这些技能是否真正有效。为此,我们提出SkillsBench——一个涵盖11个领域的86项任务的基准测试集,每项任务均配有精心筛选的技能集合及确定性验证器。针对每一项任务,我们均在三种条件下进行评估:不使用任何技能、使用人工筛选的技能,以及使用智能体自生成的技能。我们在7种智能体-模型组合上共运行了7,308条推理轨迹。结果表明,采用人工筛选的技能后,平均通过率提升了16.2个百分点(pp),但提升效果因领域而异(软件工程领域仅提升+4.5pp,而医疗健康领域则高达+51.9pp),且在全部84项可比任务中,有16项反而出现负向增益(即性能下降)。而智能体自生成的技能在整体上未带来任何显著收益,说明当前模型尚不具备可靠地自主编写其所依赖的程序性知识的能力。此外,聚焦核心功能、仅含2–3个模块的精简型技能,其效果优于内容庞杂的综合性文档;同时,配备技能的小尺寸模型,其性能亦可媲美未配备技能的大尺寸模型。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文旨在解决Agent Skills(代理技能)缺乏标准化评估方法的问题,即当前领域尚无统一、可复现的基准来量化Skills对LLM代理在推理时的实际增益效果;该问题具有新颖性,因尽管Skills被快速采用,但其有效性长期依赖主观或任务特设评估,而非系统性因果验证。
  • 关键思路
    提出SkillsBench——首个专为评估Agent Skills设计的开源、多领域、带确定性验证器的基准:包含86个精心构造的任务(覆盖11个真实世界领域)、配套人工精编Skills(非冗余、模块化)及严格控制变量的三条件评测范式(无Skills/ curated Skills/ self-generated Skills),从而首次实现Skills效用的跨模型、跨域、可归因测量。
  • 其它亮点
    实验规模严谨:7种主流agent-model配置 × 86任务 × 3条件 = 7,308条完整推理轨迹;发现Skills增益高度非均匀(+4.5pp至+51.9pp),16/84任务出现负向delta,揭示Skills存在‘适配陷阱’;self-generated Skills平均无提升,证伪‘模型能自编有效程序知识’假设;聚焦式2–3模块Skills显著优于长文档式Skill;小模型+Skills可匹敌大模型基线——凸显Skills是高效能力增强新路径;SkillsBench已开源(含任务、Skills、verifiers、评估脚本)。
  • 相关研究
    Recent related works include: 'Tool Learning with Foundation Models' (Liu et al., NeurIPS 2023); 'API-Bank: A Benchmark for Tool-Augmented LLMs' (Li et al., ACL 2024); 'AgentBench: Evaluating LLM-based Agents on Realistic Tasks' (Wang et al., ICLR 2024); 'Skill-LLM: Compositional Skill Learning for Agent Reasoning' (Zhou et al., arXiv 2024); 'Self-Discover: Large Language Models Self-Compose Reasoning Structures' (Zhang et al., ICML 2024).
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问