How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs

2024年01月12日
  • 简介
    大多数传统的人工智能安全研究将人工智能模型视为机器,并集中于由安全专家开发的基于算法的攻击。随着大型语言模型(LLM)变得越来越普遍和能力越来越强,非专业用户在日常交互中也可能带来风险。本文介绍了一种新的视角,将LLM视为类似于人类的交流者,以探索日常语言交互和人工智能安全之间被忽视的交集。具体而言,我们研究如何说服LLM来越狱。首先,我们提出了一个说服分类法,该分类法源自几十年的社会科学研究。然后,我们将该分类法应用于自动生成可解释的说服性对抗提示(PAP)以越狱LLM。结果表明,说服显著提高了所有风险类别的越狱性能:在Llama 2-7b Chat,GPT-3.5和GPT-4上,PAP在10次试验中始终实现攻击成功率超过92%,超过了最近的基于算法的攻击。在防御方面,我们探索了各种机制来对抗PAP,并发现了现有防御的显著差距,并倡导为高度交互的LLM提供更基本的缓解措施。
  • 作者讲解·1
  • 图表
  • 解决问题
    探索大型语言模型在日常交互中的安全风险,提出一种新的方法来破解这些模型并防御攻击。
  • 关键思路
    将大型语言模型视为类人交互者,使用社会科学研究得出的说服分类法生成可解释的攻击提示,从而成功地破解模型。
  • 其它亮点
    实验表明,使用说服分类法生成的攻击提示能够显著提高破解模型的效果,攻击成功率超过92%。此外,文章还探讨了多种防御机制,并发现现有的防御机制存在一定的缺陷。
  • 相关研究
    最近在这个领域中,还有一些关于大型语言模型安全性的研究,如《Measuring and Improving the Use of Model-Based Reasoning in Recurrent Neural Networks》和《Adversarial Attacks Against Automatic Speech Recognition Systems via Psychoacoustic Hiding》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问