- 简介确保大型语言模型(LLMs)的安全对齐是生成与人类价值观一致的响应至关重要。尽管LLMs能够识别和避免有害查询,但它们容易受到“越狱”攻击的影响,即通过精心制作的提示来引导它们生成有毒内容。其中一类越狱攻击是将任务重新定义为对抗性攻击,通过引导LLMs生成肯定回答来实现。然而,这类攻击中典型的攻击GCG的成功率非常有限。在这项研究中,为了更好地研究越狱攻击,我们引入了DSN(不要说不)攻击,它不仅提示LLMs生成肯定回答,而且还创新地增强了抑制拒绝的目标。此外,越狱攻击中的另一个挑战是评估,因为直接和准确地评估攻击的有害性很困难。现有的评估方法,如拒绝关键词匹配,具有自身的局限性,因为它会显示大量的误报和漏报实例。为了克服这一挑战,我们提出了一个集成评估管道,包括自然语言推理(NLI)矛盾评估和两个外部LLMs评估器。广泛的实验表明,DSN的效力以及集成评估与基线方法相比的有效性。
-
- 图表
- 解决问题本论文旨在解决大型语言模型(LLMs)的安全问题,特别是针对'越狱'攻击的问题,即通过精心设计的提示来引导LLMs生成有害内容的攻击。同时,该论文也试图解决评估这些攻击的困难之处。
- 关键思路该论文提出了一种新的越狱攻击方式,即DSN攻击,以促使LLMs不仅生成肯定的响应,而且还要抑制拒绝的可能性。为了评估这些攻击的有害性,该论文提出了一个集成评估管道,其中包括自然语言推理(NLI)矛盾评估和两个外部LLM评估器。
- 其它亮点该论文的实验表明,DSN攻击的效果比传统的GCG攻击更强。同时,该论文提出的集成评估管道比现有的评估方法更准确。此外,该论文还提供了一个新的数据集用于评估越狱攻击的有害性,并公开了代码和数据集。
- 最近在这个领域中,也有一些相关的研究。例如,'Language Models are Few-Shot Learners'和'GPT-3: Language Models are Few-Shot Learners'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流