Bypassing the Safety Training of Open-Source LLMs with Priming Attacks

2023年12月19日
  • 简介
    随着LLM的普及,对LLM安全培训的需求越来越大。在本文中,我们展示了最先进的开源LLM容易受到我们称之为“引导攻击”的简单攻击,这些攻击无需优化即可执行,并且有效地绕过安全培训的对齐。我们提出的攻击相对于基线可将有害行为的攻击成功率(由Llama Guard测量)提高多达3.3倍。源代码和数据可在https://github.com/uiuc-focal-lab/llm-priming-attacks中找到。
  • 作者讲解
  • 图表
  • 解决问题
    研究LLM的安全问题,发现priming attacks可以绕过安全训练,提高攻击成功率
  • 关键思路
    提出priming attacks方案,通过简单的操作绕过安全训练,攻击成功率比基线高出3.3倍
  • 其它亮点
    实验结果表明,当前SOTA的LLM存在安全漏洞,提出的priming attacks方案可以有效提高攻击成功率。研究者提供了源代码和数据集。需要进一步研究如何加强LLM的安全性
  • 相关研究
    近期相关研究包括:1. Adversarial Attacks on Neural Networks for Graph Data,2. Adversarial Attacks on Deep Learning Models in Natural Language Processing
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问