SkillNet: Create, Evaluate, and Connect AI Skills

2026年02月26日
  • 简介
    当前的人工智能智能体虽已能灵活调用工具并执行复杂任务,但其长期发展却受限于技能缺乏系统性积累与迁移能力。由于缺少统一的技能整合机制,智能体往往反复“造轮子”,在彼此割裂的场景中重新发现解决方案,而无法复用已有策略。为突破这一瓶颈,我们提出了SkillNet——一个面向大规模人工智能技能构建、评估与组织的开源基础设施。SkillNet依托一套统一的本体框架对技能进行结构化建模,该框架支持从异构来源生成技能、建立丰富的语义关联关系,并在安全性(Safety)、完备性(Completeness)、可执行性(Executability)、可维护性(Maintainability)以及成本意识(Cost-awareness)五个维度上开展多维评估。我们的基础设施整合了包含逾20万项技能的技能库、一个交互式平台,以及一套功能完备的Python工具包。在ALFWorld、WebShop和ScienceWorld等基准环境上的实验评估表明,SkillNet显著提升了智能体的整体性能:在多种主干模型上,平均奖励提升达40%,执行步数减少30%。通过将技能形式化为持续演进、可组合复用的资产,SkillNet为智能体从短暂经验迈向持久精通提供了坚实可靠的基础。
  • 作者讲解
  • 图表
  • 解决问题
    当前AI代理缺乏系统性的技能积累与迁移机制,导致重复发明轮子、无法复用历史经验,阻碍长期能力演进。这是一个尚未被工程化解决的新问题——虽有零散技能学习研究,但缺乏统一的技能定义、评估与组织框架。
  • 关键思路
    提出SkillNet:首个面向AI技能全生命周期管理的开放基础设施,核心创新在于构建统一技能本体(ontology),将技能形式化为可评估、可组合、可演化的一等公民,并支持从异构来源(代码、日志、演示等)自动提取、多维量化评估(Safety/Completeness/Executability/Maintainability/Cost-awareness)及关系化组织。
  • 其它亮点
    集成20万+技能库、交互式平台和Python工具包;在ALFWorld、WebShop、ScienceWorld三大具身推理基准上验证,平均奖励提升40%、执行步数减少30%,跨多种骨干模型(如LLaMA-3、Qwen)一致有效;完全开源(代码、技能库、评估协议);未来方向包括技能演化建模、跨任务零样本技能迁移、人机协同技能蒸馏。
  • 相关研究
    1. 'Tool Learning for Large Language Models' (ACL 2023); 2. 'ReAct: Synergizing Reasoning and Acting in Language Models' (ICLR 2023); 3. 'Self-Discover: Zero-Shot Task Generalization via Reasoning Structure Generation' (NeurIPS 2023); 4. 'Skill Induction in Language Agents via Hierarchical Imitation' (CoRL 2022); 5. 'AgentBench: A Multi-Dimensional Benchmark for Evaluating LLM-based Agents' (ICML 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问