- 简介大型语言模型(LLMs)中的提示泄漏对安全和隐私构成重大威胁,特别是在检索增强生成(RAG)系统中。然而,多轮LLM交互中的泄漏及其缓解策略尚未以标准化的方式进行研究。本文研究了4个不同领域和10个闭源和开源LLMs中的提示泄漏漏洞。我们独特的多轮威胁模型利用了LLM的谄媚效应,我们的分析剖析了LLM响应中的任务指令和知识泄漏。在多轮设置中,我们的威胁模型将平均攻击成功率(ASR)提高到86.2%,其中使用GPT-4和claude-1.3的泄漏率为99%。我们发现,像Gemini这样的一些黑盒LLMs在不同领域中泄漏上下文知识的易感性有所不同-它们在新闻领域中更容易泄漏,而在医学领域中则较少。我们的实验测量了6种黑盒防御策略的特定效果,包括在RAG场景中的查询重写器。我们提出的多层防御组合对于黑盒LLMs仍有5.3%的ASR,表明LLM安全研究仍有提升空间和未来方向。
- 图表
- 解决问题论文旨在研究大型语言模型(LLMs)中提示泄漏的安全和隐私问题,特别是在检索增强生成(RAG)系统中。然而,多轮LLM交互中的泄漏及其缓解策略尚未以标准化方式进行研究。
- 关键思路该论文提出了一种新的多轮威胁模型,利用LLM的拍马屁效应,研究了4个不同领域和10个闭源和开源LLMs中的提示泄漏漏洞。在多轮设置中,威胁模型将平均攻击成功率(ASR)提高到86.2%,其中GPT-4和claude-1.3的泄漏率达到99%。该论文还研究了6种黑盒防御策略的特定效果,并提出了一种多层防御策略的组合,黑盒LLMs的ASR仍为5.3%,表明LLM安全研究仍有改进和未来方向。
- 其它亮点该论文的实验使用了多个数据集,并使用了一些黑盒和白盒LLMs,研究了多轮LLM交互中的提示泄漏漏洞及其缓解策略。此外,该论文还提出了一种新的多轮威胁模型,可以更好地研究LLM的提示泄漏漏洞。
- 最近在这个领域中,还有一些相关的研究,如《On the Privacy Risks of Language Models in Healthcare》、《Language Models are Few-Shot Learners》等。
沙发等你来抢
去评论
评论
沙发等你来抢