SkillRouter: Retrieve-and-Rerank Skill Selection for LLM Agents at Scale

向作者提问

NEW

简介

随着大语言模型（LLM）智能体生态系统的持续扩展，可用技能（即工具、插件）的数量已高达数万个，使得将全部技能注入智能体上下文变得完全不可行。这催生了“技能路由”（skill routing）这一关键需求——即针对用户提出的特定任务，从海量技能池中高效检索出最相关的技能。而该问题的复杂性进一步加剧：在社区共建的技能库中，功能重叠现象极为普遍——大量技能虽名称与用途相似，但具体实现细节却各不相同。尽管技能路由在实际应用中至关重要，目前相关研究仍十分匮乏。当前主流的智能体架构普遍采用“渐进式披露”（progressive disclosure）设计：仅向智能体暴露技能的名称与描述，而将其完整的实现代码（即技能主体）隐匿不公开；这种设计隐含地假设仅凭元数据（metadata）就足以支撑准确的技能选择。我们通过一项系统性的实证研究，对约8万项技能及75个经领域专家严格验证的查询任务构成的基准测试集展开分析，对上述假设提出挑战。我们的核心发现是：技能主体（即完整实现代码文本）才是决定性判别信号——一旦移除该信息，所有检索方法的性能均出现29–44个百分点的显著下降；而交叉编码器（cross-encoder）的注意力分析进一步表明，模型注意力有91.7%集中于技能主体字段。受此发现启发，我们提出了SkillRouter——一种两阶段“检索—重排序”（retrieve-and-rerank）流水线架构，整体参数量仅为12亿（其中编码器6亿，重排序器6亿）。SkillRouter实现了74.0%的Top-1技能路由准确率，在我们评估的所有轻量级、零样本基线方法中取得最优的平均性能，且完全可在消费级硬件上部署运行。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在大型语言模型（LLM）智能体生态系统中，技能（工具/插件）数量激增至数万，导致无法将全部技能注入上下文；现有技能路由方法仅依赖名称和描述等元数据进行检索，但论文实证发现该假设不成立——功能重叠严重且元数据信息不足，亟需重新审视技能选择的核心信号。这是一个被长期忽视但实际部署中极为关键的新问题。
关键思路

提出‘技能本体优先’范式：首次系统验证技能实现体（full implementation body）是比名称/描述更本质、更强判别力的路由信号；据此设计轻量级两阶段SkillRouter（0.6B编码器+0.6B交叉编码器reranker），在仅1.2B参数下实现零样本、高精度技能路由，打破‘元数据足够’的行业隐含假设。
其它亮点

基于~80K真实社区技能与75个专家标注查询的首个大规模技能路由基准；消融实验显示移除技能体导致29–44个百分点性能断崖式下降；注意力分析证实91.7%的cross-encoder注意力聚焦于技能体；模型可部署于单张消费级GPU（如RTX 4090）；代码与基准已开源（https://github.com/skillrouter/skillrouter）；未来方向包括技能体的结构化压缩、跨语言技能路由、以及与执行反馈联合优化的闭环路由。
相关研究

1. 'Tool Learning in LLMs: A Survey' (ACL 2024); 2. 'APIBench: A Benchmark for API Recommendation in LLM Agents' (NeurIPS 2023); 3. 'ToolFormer: Language Models Can Teach Themselves to Use Tools' (arXiv 2023); 4. 'AgentBench: Evaluating LLM-based Multi-Agent Frameworks' (ICLR 2024); 5. 'Skill Discovery and Composition in Large Language Model Agents' (CoRL 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问