- 简介大型语言模型(LLM)智能体日益依赖第三方API路由服务,将工具调用请求分发至多个上游服务商。这些路由器作为应用层代理运行,可全程以明文形式访问所有传输中的JSON载荷;然而,目前尚无任何上游模型服务商在客户端与自身之间强制实施密码学层面的完整性保护机制。本文首次对该攻击面展开系统性研究。我们构建了一个针对恶意LLM API路由器的威胁模型,并定义了两类核心攻击:载荷注入(AC-1)与密钥窃取(AC-2);此外还提出两种自适应规避变体:面向依赖关系的定向注入(AC-1.a)与条件式交付(AC-1.b)。我们在淘宝、闲鱼及Shopify托管店铺中采购了28个付费路由器,在公开社区中收集了400个免费路由器,结果发现:其中1个付费路由器和8个免费路由器正在主动注入恶意代码;2个路由器部署了自适应规避触发机制;17个路由器接触到了研究人员持有的AWS金丝雀凭证;另有1个路由器已成功从研究人员私钥控制的钱包中盗取以太币(ETH)。两项投毒实验进一步表明,表面上看似无害的路由器同样可能被卷入同一攻击面:一个意外泄露的OpenAI密钥被用于生成1亿个GPT-5.4 Token,并触发了超过七次Codex会话;而配置较弱的诱饵路由器则导致20亿个计费Token被消耗、在440次Codex会话中泄露99组凭据,且已有401次会话进入自主运行的YOLO(You Only Look Once,此处引申为“不加验证、直接执行”)模式。为此,我们构建了研究型代理工具Mine,该工具可在四个主流公开智能体框架上完整复现全部四类攻击;并基于此评估了三种可实际部署的客户端防护措施:失效即关闭(fail-closed)策略门控机制、响应侧异常检测筛查机制,以及仅追加(append-only)式透明日志记录机制。
-
- 图表
- 解决问题论文揭示并系统研究了大型语言模型(LLM)代理架构中第三方API路由器这一被长期忽视的安全薄弱环节:当前LLM工具调用链普遍依赖未经认证、无完整性保护的明文JSON代理层,导致客户端与上游模型服务之间存在可被恶意路由节点劫持的‘信任鸿沟’。该问题此前未被形式化建模或实证评估,属于首次系统性发现的新攻击面。
- 关键思路提出首个针对LLM API路由器的结构化威胁模型,明确定义两类核心攻击(AC-1载荷注入、AC-2密钥窃取)及两种自适应规避变体(AC-1.a依赖定向注入、AC-1.b条件交付),并构建可复现的开源研究代理Mine,实现对主流Agent框架的端到端攻击验证;其新意在于将传统API网关安全范式迁移至LLM智能体栈,首次将‘代理即攻击向量’从假设提升为经大规模实证的现实威胁。
- 其它亮点实证覆盖428个真实路由器(28个付费+400个免费),发现17个触碰AWS蜜罐凭证、1个盗取ETH私钥;开展两项关键中毒实验:泄露OpenAI密钥致100M GPT-5.4 tokens滥用,弱配置蜜罐诱捕2B计费tokens与99个真实凭证;提出三种客户端可部署防御:fail-closed策略门、响应侧异常筛查、append-only透明日志;Mine代理已开源(论文附录声明),但未提及其GitHub链接;值得深入的方向包括:LLM工具调用链的零信任协议设计、基于TEE的轻量级路由完整性验证、以及面向Agent工作流的细粒度凭证最小化分发机制。
- ‘LLM Security Landscape: A Taxonomy of Attacks and Defenses’ (USENIX Security ’24); ‘Prompt Injection Attacks Against LLM-Powered Agents’ (ACL ’23); ‘The Dangers of Untrusted Tool Orchestration in Agentic Systems’ (NeurIPS ML Safety Workshop ’23); ‘API Gateway Security in Microservices: Lessons for AI Systems’ (IEEE ICWS ’22); ‘CanaryTokens for LLM Application Monitoring’ (arXiv:2310.12876)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流