AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases

简介

LLM代理在各种应用中表现出色，主要是因为它们具有先进的推理能力、利用外部知识和工具、调用API以及执行操作与环境进行交互的能力。当前的代理通常利用记忆模块或检索增强生成（RAG）机制，从知识库中检索过去的知识和具有相似嵌入的实例，以指导任务规划和执行。然而，依赖于未经验证的知识库会引起关于其安全性和可信度的重大担忧。为了揭示这种漏洞，我们提出了一种新颖的红队攻击方法AgentPoison，这是针对通用和基于RAG的LLM代理的第一种后门攻击，通过污染其长期记忆或RAG知识库。特别地，我们将触发生成过程形成为一个约束优化，通过将触发实例映射到一个唯一的嵌入空间来优化后门触发器，以确保每当用户指令包含优化后门触发器时，恶意演示将以高概率从受污染的内存或知识库中检索出来。同时，没有触发器的良性指令仍将保持正常性能。与传统的后门攻击不同，AgentPoison不需要额外的模型训练或微调，优化后门触发器表现出卓越的可转移性、上下文连贯性和隐蔽性。广泛的实验表明，AgentPoison在攻击三种类型的现实世界LLM代理方面的有效性：基于RAG的自主驾驶代理、知识密集型QA代理和医疗保健EHRAgent。在每个代理上，AgentPoison的平均攻击成功率高达80%以上，对良性性能的影响很小（少于1%），毒害率小于0.1%。
图表
解决问题

本论文旨在解决现有LLM代理依赖未经验证知识库的安全和可信问题，提出了一种名为AgentPoison的后门攻击方法，通过污染长期记忆或RAG知识库来攻击代理。
关键思路

AgentPoison是一种新型的后门攻击方法，它不需要额外的模型训练或微调，并且可以在不影响良性性能的情况下实现高攻击成功率。
其它亮点

该论文提出的AgentPoison方法可以攻击三种现实世界中的LLM代理，包括RAG自动驾驶代理、知识密集型QA代理和医疗保健EHRAgent。实验结果表明，AgentPoison的攻击成功率平均超过80％，对良性性能的影响小于1％，毒化率小于0.1％。论文开源了代码。
相关研究

最近在这个领域中的相关研究包括：1. "DeepTest: Automated Testing of Deep-Neural-Network-driven Autonomous Cars"；2. "Adversarial Attacks and Defenses in Images, Graphs and Text: A Review"；3. "Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks"。

AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases

评论