- 简介随着大语言模型(LLM)智能体生态系统的持续扩展,可用技能(即工具、插件)的数量已高达数万个,使得将全部技能注入智能体上下文变得完全不可行。这催生了“技能路由”(skill routing)这一关键需求——即针对用户提出的特定任务,从海量技能池中高效检索出最相关的技能。而该问题的复杂性进一步加剧:在社区共建的技能库中,功能重叠现象极为普遍——大量技能虽名称与用途相似,但具体实现细节却各不相同。尽管技能路由在实际应用中至关重要,目前相关研究仍十分匮乏。当前主流的智能体架构普遍采用“渐进式披露”(progressive disclosure)设计:仅向智能体暴露技能的名称与描述,而将其完整的实现代码(即技能主体)隐匿不公开;这种设计隐含地假设仅凭元数据(metadata)就足以支撑准确的技能选择。我们通过一项系统性的实证研究,对约8万项技能及75个经领域专家严格验证的查询任务构成的基准测试集展开分析,对上述假设提出挑战。我们的核心发现是:技能主体(即完整实现代码文本)才是决定性判别信号——一旦移除该信息,所有检索方法的性能均出现29–44个百分点的显著下降;而交叉编码器(cross-encoder)的注意力分析进一步表明,模型注意力有91.7%集中于技能主体字段。受此发现启发,我们提出了SkillRouter——一种两阶段“检索—重排序”(retrieve-and-rerank)流水线架构,整体参数量仅为12亿(其中编码器6亿,重排序器6亿)。SkillRouter实现了74.0%的Top-1技能路由准确率,在我们评估的所有轻量级、零样本基线方法中取得最优的平均性能,且完全可在消费级硬件上部署运行。
-
- 图表
- 解决问题在大型语言模型(LLM)智能体生态系统中,技能(工具/插件)数量激增至数万,导致无法将全部技能注入上下文;现有技能路由方法仅依赖名称和描述等元数据进行检索,但论文实证发现该假设不成立——功能重叠严重且元数据信息不足,亟需重新审视技能选择的核心信号。这是一个被长期忽视但实际部署中极为关键的新问题。
- 关键思路提出‘技能本体优先’范式:首次系统验证技能实现体(full implementation body)是比名称/描述更本质、更强判别力的路由信号;据此设计轻量级两阶段SkillRouter(0.6B编码器+0.6B交叉编码器reranker),在仅1.2B参数下实现零样本、高精度技能路由,打破‘元数据足够’的行业隐含假设。
- 其它亮点基于~80K真实社区技能与75个专家标注查询的首个大规模技能路由基准;消融实验显示移除技能体导致29–44个百分点性能断崖式下降;注意力分析证实91.7%的cross-encoder注意力聚焦于技能体;模型可部署于单张消费级GPU(如RTX 4090);代码与基准已开源(https://github.com/skillrouter/skillrouter);未来方向包括技能体的结构化压缩、跨语言技能路由、以及与执行反馈联合优化的闭环路由。
- 1. 'Tool Learning in LLMs: A Survey' (ACL 2024); 2. 'APIBench: A Benchmark for API Recommendation in LLM Agents' (NeurIPS 2023); 3. 'ToolFormer: Language Models Can Teach Themselves to Use Tools' (arXiv 2023); 4. 'AgentBench: Evaluating LLM-based Multi-Agent Frameworks' (ICLR 2024); 5. 'Skill Discovery and Composition in Large Language Model Agents' (CoRL 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流