- 简介大型语言模型(LLMs)的受欢迎程度显著提高,并越来越多地被应用于多个领域。这些LLMs被严格限制,以避免涉及非法或不道德的话题,以避免对负责任的人工智能造成伤害。然而,最近出现了一种被称为“越狱”的攻击方式,旨在打破这种限制。直观地说,越狱攻击旨在缩小模型能够执行的任务与愿意执行的任务之间的差距。本文介绍了一种新型的越狱攻击方法,称为Crescendo。与现有的越狱方法不同,Crescendo是一种多轮越狱,以看似无害的方式与模型进行交互。它从关于任务的一般提示或问题开始,然后逐渐升级对话,引用模型的回复,逐步导致成功越狱。我们在包括ChatGPT、Gemini Pro、Gemini-Ultra、LlaMA-2 70b Chat和Anthropic Chat在内的各种公共系统上评估了Crescendo。我们的结果表明,Crescendo的攻击成功率很高,对所有评估的模型和任务都有效。此外,我们还介绍了Crescendomation,这是一种自动化Crescendo攻击的工具,我们的评估展示了它对最先进的模型的有效性。
- 图表
- 解决问题本论文旨在介绍一种新的多轮逐步升级的模型破解方法,名为Crescendo,以克服当前大型语言模型对非法或不道德主题的抵制,从而实现更广泛的应用。
- 关键思路Crescendo是一种多轮对话的破解方法,通过逐步升级对话内容,引导模型逐渐接受原本抵制的非法或不道德主题。
- 其它亮点论文在多个公共系统上对Crescendo进行了评估,包括ChatGPT、Gemini Pro、Gemini-Ultra、LlaMA-2 70b Chat和Anthropic Chat。结果表明,Crescendo的攻击成功率很高。此外,论文还介绍了一种名为Crescendomation的工具,可以自动化Crescendo攻击。
- 在最近的相关研究中,也有人对大型语言模型的安全性问题进行了探究,例如《Language Models Are Few-Shot Learners》和《GPT-2 as a Backdoor: Turning Language Models into Task-Agnostic Black Boxes》等。
沙发等你来抢
去评论
评论
沙发等你来抢