SkillHarm: Lifecycle-Aware Skill-Based Attacks via Automated Construction

向作者提问

NEW

简介

智能体技能在智能体工作流中占据特殊地位，因为智能体被默认应隐式遵循并执行这些技能，这使得第三方技能成为一处易受攻击的薄弱环节。现有研究已揭示了基于技能的攻击所引发的不安全智能体行为，但其评估大多局限于单次任务执行中对被污染技能的测试，并通过临时拟定的风险清单来枚举各类危害。为弥补上述不足，我们提出 SkillHarm——一个覆盖技能使用全生命周期的、基于技能的攻击基准，并配套构建了一套系统化的、面向技能相关风险的分类体系。SkillHarm 评估两类攻击场景：固定载荷投毒（Fixed-Payload Poisoning, FPP），即一个固定的被污染技能包一旦被调用，便会直接危及任何调用它的任务会话；以及自变异投毒（Self-Mutating Poisoning, SMP），即一个初始状态无害的技能执行过程，在运行中悄然篡改其持久化存储的技能内容，从而将实际危害延迟至后续对该技能的再次复用时才显现。此外，SkillHarm 还依据所攻击的智能体工作流组件，明确定义了12类风险类型，涵盖数据流水线、系统环境与智能体自主性三大层面。为实现此类攻击的大规模实例化，我们构建了 AutoSkillHarm——一条由自然语言“驱动器”（harnesses）引导编程智能体自动完成的攻击构造流水线。最终形成的基准数据集共包含覆盖71项技能的879个攻击样本。实验结果表明，当前主流智能体仍普遍存在严重脆弱性：在FPP场景下攻击成功率高达86.3%，在SMP场景下亦达69.3%。我们的深入分析进一步揭示了一种潜在风险：大量看似“攻击失败”的案例，实则源于智能体根本未加载或访问被污染的文件，而非其具备真实防御能力；而当前各类防御机制仍无法可靠地缓解该威胁。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在系统性地揭示和评估技能（skills）作为智能体工作流中隐式执行的关键组件所引入的安全风险，特别是技能被恶意篡改后在全生命周期（调用、复用、持久化）中引发的隐蔽危害。该问题新颖之处在于：超越单次任务中的显式攻击检测，聚焦技能作为‘可信基础设施’被滥用的深层攻击面，且此前缺乏覆盖技能使用全周期、结构化风险分类的基准。
关键思路

提出SkillHarm——首个覆盖技能使用全生命周期（含即时触发与延迟生效）的系统性技能攻击基准，并构建12类基于代理工作流组件（数据管道、系统环境、自主性）的风险分类法；创新性区分Fixed-Payload Poisoning（FPP）与Self-Mutating Poisoning（SMP）两类攻击范式，后者模拟真实世界中‘潜伏式’技能污染，更具隐蔽性和破坏性。
其它亮点

构建AutoSkillHarm自动化生成管线，利用自然语言驱动的编码智能体规模化合成879个跨71个技能的攻击样本；实验显示主流智能体对FPP攻击成功率高达86.3%，SMP达69.3%；发现关键隐性失效模式：多数‘失败’实为智能体未加载/解析毒化文件，而非具备鲁棒防御能力；论文开源全部攻击样本与评估框架（SkillHarm Benchmark），代码已公开；值得深入的方向包括：面向技能供应链的可信验证机制、支持动态技能沙箱的运行时防护、以及针对SMP的持久化状态完整性监控。
相关研究

Recent works include: 'AgentScope: A Framework for Evaluating LLM-based Agents in Realistic Environments' (ACL 2024); 'Poisoning Language Models via Prompt Injection' (ICLR 2023); 'Security Risks of LLM Agent Workflows: A Systematic Study' (USENIX Security 2024); 'SkillChain: Towards Composable and Verifiable Agent Skills' (NeurIPS 2023 Workshop); 'LLM-Driven Agent Vulnerabilities: An Empirical Analysis of Tool Use Failures' (EMNLP 2023).

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问