Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks

2024年05月30日
  • 简介
    安全、保障和合规性是对齐大型语言模型(LLMs)时必不可少的要求。然而,许多看似对齐的LLMs很快就被证明容易受到越狱攻击的影响。这些攻击旨在通过将越狱提示引入恶意查询来规避模型的安全防护和安全机制。针对这些挑战,本文介绍了一种新颖的基于提示的防御机制——Defensive Prompt Patch(DPP),专门设计用于保护LLMs免受这种复杂的越狱策略的攻击。与以往常常为了安全而牺牲模型效用的方法不同,DPP旨在实现最小的攻击成功率(ASR),同时保留LLMs的高效用性。我们的方法使用战略性设计的可解释后缀提示,有效地挫败了各种标准和自适应越狱技术。在LLAMA-2-7B-Chat和Mistral-7B-Instruct-v0.2模型上进行的实证结果显示,DPP的鲁棒性和适应性,显示出显著的ASR降低,对效用影响微乎其微。我们的方法不仅在平衡安全和功能方面优于现有的防御策略,而且提供了可扩展和可解释的解决方案,适用于各种LLM平台。
  • 图表
  • 解决问题
    本论文旨在解决大型语言模型(LLMs)易受越狱攻击的问题,提出了一种新的基于提示的防御机制,名为Defensive Prompt Patch(DPP)
  • 关键思路
    DPP使用设计精良的可解释后缀提示,旨在有效地阻止各种标准和自适应越狱技术,同时保持LLMs的高实用性,从而平衡安全和功能性。
  • 其它亮点
    实验结果表明,DPP在保持高实用性的同时,显著降低了攻击成功率(ASR),优于现有的防御策略,同时提供了可扩展和可解释的解决方案,适用于各种LLM平台。实验使用了LLAMA-2-7B-Chat和Mistral-7B-Instruct-v0.2数据集。
  • 相关研究
    与本论文相关的研究包括:1. Adversarial Examples Are Not Bugs, They Are Features,2. A Survey of Machine Learning for Big Code and Naturalness,3. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论