"Do Anything Now": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models

Xinyue Shen, Zeyuan Chen, Michael Backes, Yun Shen, Yang Zhang
[CISPA Helmholtz Center for Information Security]

"立即行动":大型语言模型实际场景越狱提示的特征化和评估

  • 研究收集并分析了近700个实际的辅助提示(prompt),发现它们通过各种手段试图突破LLM的内置安全机制,比如增加指令数、提高恶意性、语义接近等。
  • 利用社区检测方法,识别出8大突破提示类别,它们采用了不同的攻击策略,如提示注入、特权升级、欺骗等,三个主要在Discord上出现的类别专门用于生成毒性内容。
  • 随着时间推移,突破提示变得更短小、更具毒性,语义也在不断调整,以提高突破效果,它们的来源也在从公共平台转移到更加隐秘的平台。
  • 评估显示当前LLM和安全机制很难抵御各类场景下最有效的突破提示,尤其两个提示可以达到0.99的成功率,并在网上持续存在100多天。
  • Dolly这样的开源商用LLM甚至在没有提示的情况下就显示出极小的抵抗能力,这对LLM的负责任发布提出了严峻考验。
  • 当前的外部安全模块仅能对突破提示起到很小的缓解作用,需要更强更适应性的防御机制。

动机:随着大型语言模型(LLM)的广泛应用,越狱提示(一种特殊的对抗性提示用于绕过安全措施)的威胁越来越严重,但目前对其研究和防范措施却相对缺乏。
方法:通过对四个平台采集的6387个提示进行为期六个月的测量研究,利用自然语言处理技术和基于图的社区检测方法,识别并分析了越狱提示的特性和攻击策略。
优势:首次全面揭示了越狱提示的严重和不断演变的威胁景观,为未来的防范提供了有力的理论支撑和实证依据。

通过首次的大规模测量研究,揭示了大型语言模型中越狱提示的特性和攻击策略,展示了现有防护措施的不足,并为未来的安全防范提供了新的视角和方法。

https://arxiv.org/abs/2308.03825 
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除