PLeak: Prompt Leaking Attacks against Large Language Model Applications

简介

大型语言模型（LLMs）使得一个新的生态系统成为可能，其中包含许多下游应用程序，称为LLM应用程序，用于不同的自然语言处理任务。LLM应用程序的功能和性能高度依赖于其系统提示，该提示指示后端LLM执行哪项任务。因此，LLM应用程序开发人员通常会保密其系统提示以保护其知识产权。因此，一种自然的攻击称为提示泄漏，即从LLM应用程序中窃取系统提示，这会危及开发人员的知识产权。现有的提示泄漏攻击主要依赖于手动制作的查询，因此效果有限。在本文中，我们设计了一种新的封闭盒提示泄漏攻击框架，称为PLeak，以优化对手查询，使得当攻击者将其发送到目标LLM应用程序时，其响应会显示其自身的系统提示。我们将寻找这样的对手查询形式化为一个优化问题，并使用基于梯度的方法进行近似求解。我们的关键思想是通过逐步优化系统提示的对手查询来分解优化目标，即从每个系统提示的前几个标记开始，逐步进行，直到系统提示的整个长度。我们在离线设置和实际的LLM应用程序上评估了PLeak，例如在Poe上托管这些应用程序的流行平台。我们的结果表明，PLeak可以有效地泄漏系统提示，并且不仅优于手动策划查询的基线，而且优于从现有越狱攻击中修改和适应的优化查询的基线。我们已经负责地向Poe报告了这些问题，正在等待他们的回复。我们的实现可在此存储库中找到：https://github.com/BHui97/PLeak。

图表

解决问题

设计一种攻击框架PLeak，用于从LLM应用中窃取系统提示，以破坏开发者的知识产权。

关键思路

通过优化对抗查询，逐步优化对每个系统提示的对手查询，以泄漏系统提示。

其它亮点

PLeak在离线和实时设置中均能有效地泄漏系统提示，并且明显优于手动策划查询的基线，以及修改和适应现有越狱攻击的优化查询的基线。研究人员已经将问题负责任地报告给Poe，但尚未收到回复。研究人员的实现可在GitHub上获得。

PLeak: Prompt Leaking Attacks against Large Language Model Applications

评论