Bypassing the Safety Training of Open-Source LLMs with Priming Attacks

Jason Vega ,
Isha Chaudhary ,
Changming Xu ,
Gagandeep Singh
2023年12月19日
  • 简介
    随着LLM的普及,对LLM安全培训的需求越来越大。在本文中,我们展示了最先进的开源LLM容易受到我们称之为“引导攻击”的简单攻击,这些攻击无需优化即可执行,并且有效地绕过安全培训的对齐。我们提出的攻击相对于基线可将有害行为的攻击成功率(由Llama Guard测量)提高多达3.3倍。源代码和数据可在https://github.com/uiuc-focal-lab/llm-priming-attacks中找到。
  • 图表
  • 解决问题
    研究LLM的安全问题,发现priming attacks可以绕过安全训练,提高攻击成功率
  • 关键思路
    提出priming attacks方案,通过简单的操作绕过安全训练,攻击成功率比基线高出3.3倍
  • 其它亮点
    实验结果表明,当前SOTA的LLM存在安全漏洞,提出的priming attacks方案可以有效提高攻击成功率。研究者提供了源代码和数据集。需要进一步研究如何加强LLM的安全性
  • 相关研究
    近期相关研究包括:1. Adversarial Attacks on Neural Networks for Graph Data,2. Adversarial Attacks on Deep Learning Models in Natural Language Processing
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论