PRSA: Prompt Reverse Stealing Attacks against Large Language Models

2024年02月29日
  • 简介
    Prompt被认为是重要的知识产权,使得大型语言模型(LLMs)能够在无需微调的情况下执行特定任务,突显了它们日益重要的地位。随着基于prompt的服务的兴起,如prompt市场和LLM应用程序,提供商通常通过输入输出示例展示prompt的能力来吸引用户。然而,这种范式引发了一个关键的安全问题:输入输出对的公开是否会带来潜在的prompt泄漏风险,侵犯开发者的知识产权?据我们所知,这个问题还没有得到全面的探讨。为了弥补这一空白,本文进行了首次深入探索,并提出了一种针对商业LLMs的反向窃取prompt的新攻击框架,即PRSA。PRSA的主要思想是通过分析输入输出对的关键特征,模仿并逐步推断(窃取)目标prompt。具体而言,PRSA主要包括两个关键阶段:prompt变异和prompt修剪。在变异阶段,我们提出了一种基于差分反馈的prompt注意力算法,以捕获这些关键特征,以有效地推断目标prompt。在prompt修剪阶段,我们识别并屏蔽了特定输入所依赖的单词,使prompt能够适应多样化的输入以实现泛化。通过广泛的评估,我们验证了PRSA在现实世界情境下构成了严重的威胁。我们已将这些发现报告给prompt服务提供商,并积极与他们合作采取保护prompt版权的措施。
  • 图表
  • 解决问题
    本文旨在探讨输入输出对的泄露是否会导致潜在的提示泄漏,侵犯开发者的知识产权,提出一种新的反向窃取提示的攻击框架PRSA。
  • 关键思路
    PRSA主要由两个关键阶段组成:提示变异和提示修剪。通过分析输入输出对的关键特征,我们模拟并逐步推断(窃取)目标提示。
  • 其它亮点
    本文提出的PRSA攻击框架在现实世界中构成了严重威胁。通过广泛的评估,我们验证了这一点。作者已将这些发现报告给提示服务提供商,并积极与他们合作采取保护措施以保护提示版权。
  • 相关研究
    最近的研究包括:《GPT-3和其他大型语言模型的输入输出泄露》、《基于模型的反向工程:从语言模型到提示》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论