PLeak: Prompt Leaking Attacks against Large Language Model Applications

简介

大型语言模型（LLM）使许多下游应用程序成为可能，这些应用程序称为LLM应用程序，可执行不同的自然语言处理任务。LLM应用程序的功能和性能高度依赖于其系统提示，该提示指示后端LLM执行何种任务。因此，LLM应用程序开发人员通常会保密系统提示以保护其知识产权。因此，一种自然的攻击方式，称为提示泄漏，就是从LLM应用程序中窃取系统提示，从而危及开发人员的知识产权。现有的提示泄漏攻击主要依赖于手动制作的查询，因此效果有限。在本文中，我们设计了一种新的闭箱提示泄漏攻击框架PLeak，以优化对手查询，使攻击者将其发送到目标LLM应用程序时，其响应会揭示其自己的系统提示。我们将寻找这样的对手查询形式化为一个优化问题，并用基于梯度的方法近似地解决它。我们的关键思想是通过逐步优化系统提示的对手查询来分解优化目标，即从每个系统提示的前几个标记开始逐步进行，直到整个系统提示的长度。我们在离线设置和实际的LLM应用程序中评估了PLeak，例如那些在Poe上托管这些应用程序的流行平台。我们的结果表明，PLeak可以有效地泄漏系统提示，并且不仅优于手动策划查询的基准线，而且优于从现有越狱攻击中修改和适应的优化查询的基准线。我们已经负责地向Poe报告了这些问题，并正在等待他们的回复。我们的实现可在此存储库中找到：https://github.com/BHui97/PLeak。

图表

解决问题

本论文旨在设计一种新的攻击框架PLeak，通过优化对抗查询，从而泄露LLM应用程序的系统提示，以此来破坏开发者的知识产权保护。

关键思路

PLeak框架通过逐步优化系统提示的对手查询来实现对抗查询的最优化，从而有效地泄漏了系统提示。

其它亮点

论文在离线和在线实验中评估了PLeak框架的性能，并展示了其优于手动策划查询和现有越狱攻击的优势。此外，作者还公开了他们的实现代码。

PLeak: Prompt Leaking Attacks against Large Language Model Applications

评论