AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases

2024年07月17日
  • 简介
    LLM代理在各种应用中表现出色,主要是因为它们具有先进的推理能力、利用外部知识和工具、调用API以及执行操作与环境进行交互的能力。当前的代理通常利用记忆模块或检索增强生成(RAG)机制,从知识库中检索过去的知识和具有相似嵌入的实例,以指导任务规划和执行。然而,依赖于未经验证的知识库会引起关于其安全性和可信度的重大担忧。为了揭示这种漏洞,我们提出了一种新颖的红队攻击方法AgentPoison,这是针对通用和基于RAG的LLM代理的第一种后门攻击,通过污染其长期记忆或RAG知识库。特别地,我们将触发生成过程形成为一个约束优化,通过将触发实例映射到一个唯一的嵌入空间来优化后门触发器,以确保每当用户指令包含优化后门触发器时,恶意演示将以高概率从受污染的内存或知识库中检索出来。同时,没有触发器的良性指令仍将保持正常性能。与传统的后门攻击不同,AgentPoison不需要额外的模型训练或微调,优化后门触发器表现出卓越的可转移性、上下文连贯性和隐蔽性。广泛的实验表明,AgentPoison在攻击三种类型的现实世界LLM代理方面的有效性:基于RAG的自主驾驶代理、知识密集型QA代理和医疗保健EHRAgent。在每个代理上,AgentPoison的平均攻击成功率高达80%以上,对良性性能的影响很小(少于1%),毒害率小于0.1%。
  • 图表
  • 解决问题
    本论文旨在解决现有LLM代理依赖未经验证知识库的安全和可信问题,提出了一种名为AgentPoison的后门攻击方法,通过污染长期记忆或RAG知识库来攻击代理。
  • 关键思路
    AgentPoison是一种新型的后门攻击方法,它不需要额外的模型训练或微调,并且可以在不影响良性性能的情况下实现高攻击成功率。
  • 其它亮点
    该论文提出的AgentPoison方法可以攻击三种现实世界中的LLM代理,包括RAG自动驾驶代理、知识密集型QA代理和医疗保健EHRAgent。实验结果表明,AgentPoison的攻击成功率平均超过80%,对良性性能的影响小于1%,毒化率小于0.1%。论文开源了代码。
  • 相关研究
    最近在这个领域中的相关研究包括:1. "DeepTest: Automated Testing of Deep-Neural-Network-driven Autonomous Cars";2. "Adversarial Attacks and Defenses in Images, Graphs and Text: A Review";3. "Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks"。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论