How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

简介

大多数传统的人工智能安全研究将人工智能模型视为机器，并集中于由安全专家开发的基于算法的攻击。随着大型语言模型（LLM）变得越来越普遍和能力越来越强，非专业用户在日常交互中也可能带来风险。本文介绍了一种新的视角，将LLM视为类似于人类的交流者，以探索日常语言交互和人工智能安全之间被忽视的交集。具体而言，我们研究如何说服LLM来越狱。首先，我们提出了一个说服分类法，该分类法源自几十年的社会科学研究。然后，我们将该分类法应用于自动生成可解释的说服性对抗提示（PAP）以越狱LLM。结果表明，说服显著提高了所有风险类别的越狱性能：在Llama 2-7b Chat，GPT-3.5和GPT-4上，PAP在10次试验中始终实现攻击成功率超过92％，超过了最近的基于算法的攻击。在防御方面，我们探索了各种机制来对抗PAP，并发现了现有防御的显著差距，并倡导为高度交互的LLM提供更基本的缓解措施。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

探索大型语言模型在日常交互中的安全风险，提出一种新的方法来破解这些模型并防御攻击。
关键思路

将大型语言模型视为类人交互者，使用社会科学研究得出的说服分类法生成可解释的攻击提示，从而成功地破解模型。
其它亮点

实验表明，使用说服分类法生成的攻击提示能够显著提高破解模型的效果，攻击成功率超过92%。此外，文章还探讨了多种防御机制，并发现现有的防御机制存在一定的缺陷。
相关研究

最近在这个领域中，还有一些关于大型语言模型安全性的研究，如《Measuring and Improving the Use of Model-Based Reasoning in Recurrent Neural Networks》和《Adversarial Attacks Against Automatic Speech Recognition Systems via Psychoacoustic Hiding》等。

How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

提问交流

提问交流