- 简介随着大型语言模型(LLMs)越来越普遍并集成到自主系统中,确保它们的安全至关重要。尽管在安全对齐方面已经取得了重大进展,但最近的GCG研究~\citep{zou2023universal}提出了一种离散令牌优化算法,并选择了具有最低损失的单个后缀,成功越狱了对齐的LLMs。在这项工作中,我们首先讨论了仅选择具有最低损失的后缀在GCG优化期间用于越狱的缺点,并揭示了在中间步骤中错过的成功后缀。此外,我们利用这些成功的后缀作为训练数据来学习一个生成模型,名为AmpleGCG,它捕捉了在给定有害查询的情况下对抗后缀的分布,并使得可以在几秒钟内快速生成数百个后缀。AmpleGCG在两个对齐的LLMs(Llama-2-7B-chat和Vicuna-7B)上实现了接近100\%的攻击成功率(ASR),超过了两个最强的攻击基线。更有趣的是,AmpleGCG也可以无缝地转移到攻击不同的模型,包括闭源LLMs,在最新的GPT-3.5上实现了99\%的ASR。总之,我们的工作通过训练一个对抗性后缀的生成模型,将GCG的影响放大,该模型对任何有害查询都是通用的,并且可以从攻击开源LLMs转移到攻击闭源LLMs。此外,它可以在4秒内为一个有害查询生成200个对抗性后缀,使其更难以防御。
-
- 图表
- 解决问题解决对大型语言模型(LLMs)进行攻击的问题,提高LLMs的安全性。
- 关键思路使用AmpleGCG算法生成对LLMs的有害查询的多个后缀,提高攻击成功率。
- 其它亮点AmpleGCG算法能够生成大量的对LLMs的有害查询的后缀,攻击成功率接近100%。该算法还能够迁移到攻击闭源LLMs,攻击成功率仍然很高。实验设计合理,使用了多个数据集并开源了代码。
- 最近的相关研究包括:GCG算法(论文作者之前的工作),针对LLMs的其他攻击算法,以及对LLMs的安全性进行提高的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流