Don't Say No: Jailbreaking LLM by Suppressing Refusal

简介

确保大型语言模型（LLMs）的安全对齐是生成与人类价值观一致的响应至关重要。尽管LLMs能够识别和避免有害查询，但它们容易受到“越狱”攻击的影响，即通过精心制作的提示来引导它们生成有毒内容。其中一类越狱攻击是将任务重新定义为对抗性攻击，通过引导LLMs生成肯定回答来实现。然而，这类攻击中典型的攻击GCG的成功率非常有限。在这项研究中，为了更好地研究越狱攻击，我们引入了DSN（不要说不）攻击，它不仅提示LLMs生成肯定回答，而且还创新地增强了抑制拒绝的目标。此外，越狱攻击中的另一个挑战是评估，因为直接和准确地评估攻击的有害性很困难。现有的评估方法，如拒绝关键词匹配，具有自身的局限性，因为它会显示大量的误报和漏报实例。为了克服这一挑战，我们提出了一个集成评估管道，包括自然语言推理（NLI）矛盾评估和两个外部LLMs评估器。广泛的实验表明，DSN的效力以及集成评估与基线方法相比的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决大型语言模型（LLMs）的安全问题，特别是针对'越狱'攻击的问题，即通过精心设计的提示来引导LLMs生成有害内容的攻击。同时，该论文也试图解决评估这些攻击的困难之处。
关键思路

该论文提出了一种新的越狱攻击方式，即DSN攻击，以促使LLMs不仅生成肯定的响应，而且还要抑制拒绝的可能性。为了评估这些攻击的有害性，该论文提出了一个集成评估管道，其中包括自然语言推理（NLI）矛盾评估和两个外部LLM评估器。
其它亮点

该论文的实验表明，DSN攻击的效果比传统的GCG攻击更强。同时，该论文提出的集成评估管道比现有的评估方法更准确。此外，该论文还提供了一个新的数据集用于评估越狱攻击的有害性，并公开了代码和数据集。
相关研究

最近在这个领域中，也有一些相关的研究。例如，'Language Models are Few-Shot Learners'和'GPT-3: Language Models are Few-Shot Learners'等。

Don't Say No: Jailbreaking LLM by Suppressing Refusal

提问交流

提问交流