PRSA: Prompt Reverse Stealing Attacks against Large Language Models

简介

Prompt被认为是重要的知识产权，使得大型语言模型（LLMs）能够在无需微调的情况下执行特定任务，突显了它们日益重要的地位。随着基于prompt的服务的兴起，如prompt市场和LLM应用程序，提供商通常通过输入输出示例展示prompt的能力来吸引用户。然而，这种范式引发了一个关键的安全问题：输入输出对的公开是否会带来潜在的prompt泄漏风险，侵犯开发者的知识产权？据我们所知，这个问题还没有得到全面的探讨。为了弥补这一空白，本文进行了首次深入探索，并提出了一种针对商业LLMs的反向窃取prompt的新攻击框架，即PRSA。PRSA的主要思想是通过分析输入输出对的关键特征，模仿并逐步推断（窃取）目标prompt。具体而言，PRSA主要包括两个关键阶段：prompt变异和prompt修剪。在变异阶段，我们提出了一种基于差分反馈的prompt注意力算法，以捕获这些关键特征，以有效地推断目标prompt。在prompt修剪阶段，我们识别并屏蔽了特定输入所依赖的单词，使prompt能够适应多样化的输入以实现泛化。通过广泛的评估，我们验证了PRSA在现实世界情境下构成了严重的威胁。我们已将这些发现报告给prompt服务提供商，并积极与他们合作采取保护prompt版权的措施。
图表
解决问题

本文旨在探讨输入输出对的泄露是否会导致潜在的提示泄漏，侵犯开发者的知识产权，提出一种新的反向窃取提示的攻击框架PRSA。
关键思路

PRSA主要由两个关键阶段组成：提示变异和提示修剪。通过分析输入输出对的关键特征，我们模拟并逐步推断（窃取）目标提示。
其它亮点

本文提出的PRSA攻击框架在现实世界中构成了严重威胁。通过广泛的评估，我们验证了这一点。作者已将这些发现报告给提示服务提供商，并积极与他们合作采取保护措施以保护提示版权。
相关研究

最近的研究包括：《GPT-3和其他大型语言模型的输入输出泄露》、《基于模型的反向工程：从语言模型到提示》等。

PRSA: Prompt Reverse Stealing Attacks against Large Language Models

评论