Bypassing the Safety Training of Open-Source LLMs with Priming Attacks

简介

随着LLM的普及，对LLM安全培训的需求越来越大。在本文中，我们展示了最先进的开源LLM容易受到我们称之为“引导攻击”的简单攻击，这些攻击无需优化即可执行，并且有效地绕过安全培训的对齐。我们提出的攻击相对于基线可将有害行为的攻击成功率（由Llama Guard测量）提高多达3.3倍。源代码和数据可在https://github.com/uiuc-focal-lab/llm-priming-attacks中找到。
图表
解决问题

研究LLM的安全问题，发现priming attacks可以绕过安全训练，提高攻击成功率
关键思路

提出priming attacks方案，通过简单的操作绕过安全训练，攻击成功率比基线高出3.3倍
其它亮点

实验结果表明，当前SOTA的LLM存在安全漏洞，提出的priming attacks方案可以有效提高攻击成功率。研究者提供了源代码和数据集。需要进一步研究如何加强LLM的安全性
相关研究

近期相关研究包括：1. Adversarial Attacks on Neural Networks for Graph Data，2. Adversarial Attacks on Deep Learning Models in Natural Language Processing

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论