AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs

简介

随着大型语言模型（LLMs）越来越普遍并集成到自主系统中，确保它们的安全至关重要。尽管在安全对齐方面已经取得了重大进展，但最近的GCG研究~\citep{zou2023universal}提出了一种离散令牌优化算法，并选择了具有最低损失的单个后缀，成功越狱了对齐的LLMs。在这项工作中，我们首先讨论了仅选择具有最低损失的后缀在GCG优化期间用于越狱的缺点，并揭示了在中间步骤中错过的成功后缀。此外，我们利用这些成功的后缀作为训练数据来学习一个生成模型，名为AmpleGCG，它捕捉了在给定有害查询的情况下对抗后缀的分布，并使得可以在几秒钟内快速生成数百个后缀。AmpleGCG在两个对齐的LLMs（Llama-2-7B-chat和Vicuna-7B）上实现了接近100\%的攻击成功率（ASR），超过了两个最强的攻击基线。更有趣的是，AmpleGCG也可以无缝地转移到攻击不同的模型，包括闭源LLMs，在最新的GPT-3.5上实现了99\%的ASR。总之，我们的工作通过训练一个对抗性后缀的生成模型，将GCG的影响放大，该模型对任何有害查询都是通用的，并且可以从攻击开源LLMs转移到攻击闭源LLMs。此外，它可以在4秒内为一个有害查询生成200个对抗性后缀，使其更难以防御。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

解决对大型语言模型（LLMs）进行攻击的问题，提高LLMs的安全性。

关键思路

使用AmpleGCG算法生成对LLMs的有害查询的多个后缀，提高攻击成功率。

其它亮点

AmpleGCG算法能够生成大量的对LLMs的有害查询的后缀，攻击成功率接近100%。该算法还能够迁移到攻击闭源LLMs，攻击成功率仍然很高。实验设计合理，使用了多个数据集并开源了代码。

AmpleGCG: Learning a Universal and Transferable Generative Model of Adversarial Suffixes for Jailbreaking Both Open and Closed LLMs

提问交流

提问交流