Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications

2024年06月10日
  • 简介
    随着GPT-s等LLM集成应用程序的大量部署,数百万个应用程序通过专有的指令提示提供有价值的服务。然而,这些系统容易受到精心设计的查询的提示提取攻击。为了帮助缓解这个问题,我们介绍了Raccoon基准测试,全面评估模型对提示提取攻击的易感性。我们的新颖评估方法在无防御和有防御的情况下评估模型,采用双重方法评估现有防御的有效性和模型的弹性。基准测试包括14个提示提取攻击类别,以及紧密模仿潜在攻击者策略的附加复合攻击,以及各种防御模板的多样化集合。据我们所知,这是迄今为止最全面的提示盗窃攻击和防御机制的汇编。我们的研究结果强调了在没有防御措施的情况下提示盗窃的普遍易感性,OpenAI模型在受保护时表现出显着的弹性。本文旨在建立一个更系统的基准测试,评估LLM对提示提取攻击的鲁棒性,提供有关其原因和潜在对策的见解。Raccoon的资源可在https://github.com/M0gician/RaccoonBench上公开获取。
  • 图表
  • 解决问题
    本论文旨在通过引入Raccoon基准测试来全面评估LLM模型对提示提取攻击的易感性,以及现有防御机制的有效性和模型的韧性。
  • 关键思路
    该论文提出了一种新的评估方法,旨在全面评估LLM模型的易感性,并在无防御和有防御的情况下评估模型的韧性。
  • 其它亮点
    该论文提供了一个广泛的基准测试,包括14个提示提取攻击类别和多个复合攻击,以及多种防御模板。研究发现,没有防御的情况下,所有模型都容易受到提示提取攻击,而OpenAI模型在受到保护时表现出明显的韧性。Raccoon的资源是公开可用的。
  • 相关研究
    最近的相关研究包括对LLM模型的其他安全攻击和防御机制的研究,如对抗性攻击和对抗性训练。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论