- 简介智能体技能在智能体工作流中占据特殊地位,因为智能体被默认应隐式遵循并执行这些技能,这使得第三方技能成为一处易受攻击的薄弱环节。现有研究已揭示了基于技能的攻击所引发的不安全智能体行为,但其评估大多局限于单次任务执行中对被污染技能的测试,并通过临时拟定的风险清单来枚举各类危害。为弥补上述不足,我们提出 SkillHarm——一个覆盖技能使用全生命周期的、基于技能的攻击基准,并配套构建了一套系统化的、面向技能相关风险的分类体系。SkillHarm 评估两类攻击场景:固定载荷投毒(Fixed-Payload Poisoning, FPP),即一个固定的被污染技能包一旦被调用,便会直接危及任何调用它的任务会话;以及自变异投毒(Self-Mutating Poisoning, SMP),即一个初始状态无害的技能执行过程,在运行中悄然篡改其持久化存储的技能内容,从而将实际危害延迟至后续对该技能的再次复用时才显现。此外,SkillHarm 还依据所攻击的智能体工作流组件,明确定义了12类风险类型,涵盖数据流水线、系统环境与智能体自主性三大层面。为实现此类攻击的大规模实例化,我们构建了 AutoSkillHarm——一条由自然语言“驱动器”(harnesses)引导编程智能体自动完成的攻击构造流水线。最终形成的基准数据集共包含覆盖71项技能的879个攻击样本。实验结果表明,当前主流智能体仍普遍存在严重脆弱性:在FPP场景下攻击成功率高达86.3%,在SMP场景下亦达69.3%。我们的深入分析进一步揭示了一种潜在风险:大量看似“攻击失败”的案例,实则源于智能体根本未加载或访问被污染的文件,而非其具备真实防御能力;而当前各类防御机制仍无法可靠地缓解该威胁。
-
- 图表
- 解决问题论文旨在系统性地揭示和评估技能(skills)作为智能体工作流中隐式执行的关键组件所引入的安全风险,特别是技能被恶意篡改后在全生命周期(调用、复用、持久化)中引发的隐蔽危害。该问题新颖之处在于:超越单次任务中的显式攻击检测,聚焦技能作为‘可信基础设施’被滥用的深层攻击面,且此前缺乏覆盖技能使用全周期、结构化风险分类的基准。
- 关键思路提出SkillHarm——首个覆盖技能使用全生命周期(含即时触发与延迟生效)的系统性技能攻击基准,并构建12类基于代理工作流组件(数据管道、系统环境、自主性)的风险分类法;创新性区分Fixed-Payload Poisoning(FPP)与Self-Mutating Poisoning(SMP)两类攻击范式,后者模拟真实世界中‘潜伏式’技能污染,更具隐蔽性和破坏性。
- 其它亮点构建AutoSkillHarm自动化生成管线,利用自然语言驱动的编码智能体规模化合成879个跨71个技能的攻击样本;实验显示主流智能体对FPP攻击成功率高达86.3%,SMP达69.3%;发现关键隐性失效模式:多数‘失败’实为智能体未加载/解析毒化文件,而非具备鲁棒防御能力;论文开源全部攻击样本与评估框架(SkillHarm Benchmark),代码已公开;值得深入的方向包括:面向技能供应链的可信验证机制、支持动态技能沙箱的运行时防护、以及针对SMP的持久化状态完整性监控。
- Recent works include: 'AgentScope: A Framework for Evaluating LLM-based Agents in Realistic Environments' (ACL 2024); 'Poisoning Language Models via Prompt Injection' (ICLR 2023); 'Security Risks of LLM Agent Workflows: A Systematic Study' (USENIX Security 2024); 'SkillChain: Towards Composable and Verifiable Agent Skills' (NeurIPS 2023 Workshop); 'LLM-Driven Agent Vulnerabilities: An Empirical Analysis of Tool Use Failures' (EMNLP 2023).
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流