- 简介随着LLM的普及,对LLM安全培训的需求越来越大。在本文中,我们展示了最先进的开源LLM容易受到我们称之为“引导攻击”的简单攻击,这些攻击无需优化即可执行,并且有效地绕过安全培训的对齐。我们提出的攻击相对于基线可将有害行为的攻击成功率(由Llama Guard测量)提高多达3.3倍。源代码和数据可在https://github.com/uiuc-focal-lab/llm-priming-attacks中找到。
- 图表
- 解决问题研究LLM的安全问题,发现priming attacks可以绕过安全训练,提高攻击成功率
- 关键思路提出priming attacks方案,通过简单的操作绕过安全训练,攻击成功率比基线高出3.3倍
- 其它亮点实验结果表明,当前SOTA的LLM存在安全漏洞,提出的priming attacks方案可以有效提高攻击成功率。研究者提供了源代码和数据集。需要进一步研究如何加强LLM的安全性
- 近期相关研究包括:1. Adversarial Attacks on Neural Networks for Graph Data,2. Adversarial Attacks on Deep Learning Models in Natural Language Processing
沙发等你来抢
去评论
评论
沙发等你来抢