Defeating Prompt Injections by Design

简介

大规模语言模型（LLMs）正越来越多地被部署在与外部环境交互的代理系统中。然而，当处理不可信数据时，LLM代理容易受到提示注入攻击的影响。在本文中，我们提出了CaMeL，一种稳健的防御机制，它在LLM周围创建了一个保护系统层，即使底层模型可能存在漏洞，也能确保其安全性。为了运行，CaMeL从（可信的）查询中显式提取控制流和数据流；因此，LLM检索到的不可信数据永远不会影响程序流程。为进一步提升安全性，CaMeL依赖于一种能力的概念，以防止私有数据通过未经授权的数据流泄露。我们在AgentDojo [NeurIPS 2024]中展示了CaMeL的有效性，这是一个最近提出的代理安全基准测试，在其中CaMeL以可证明的安全性解决了67%的任务。
图表
解决问题

论文试图解决大型语言模型（LLM）在代理系统中处理不可信数据时容易受到提示注入攻击的问题。这是一个重要但尚未完全解决的问题，特别是在需要与外部环境交互的场景下。
关键思路

关键思路是提出名为CaMeL的防御机制，通过显式提取受信任查询中的控制流和数据流，确保不可信数据不会影响程序执行流程。此外，CaMeL引入了‘能力’的概念，以防止未经授权的数据泄露。相比现有研究，该方法不仅关注输入的安全性，还通过分离控制流和数据流来增强系统的鲁棒性。
其它亮点

论文展示了CaMeL在AgentDojo基准测试中的有效性，解决了67%的任务并提供了可证明的安全性。实验设计严谨，使用了最新的代理安全基准数据集。目前代码是否开源未明确提及，但未来工作可能包括扩展到更复杂的任务以及与其他安全框架的对比研究。
相关研究

相关研究包括：1) PromptGuard [ICLR 2023] 提出了针对提示注入攻击的检测方法；2) SecureLM [ACL 2023] 探讨了如何通过修改模型内部结构提升安全性；3) RobustAgent [NeurIPS 2023] 研究了对抗性输入对代理系统的影响；4) SafePrompt [EMNLP 2023] 强调了安全提示工程的重要性。

Defeating Prompt Injections by Design

评论