Jailbroken: How Does LLM Safety Training Fail?
Alexander Wei, Nika Haghtalab, Jacob Steinhardt
[UC Berkeley]
越狱:大模型安全训练何以失败?
-
动机:大型语言模型(LLM)如ChatGPT、Claude和Bard已经广泛部署,这些模型展示了先进的通用能力,但也存在被恶意使用的风险。为了减轻这些风险,模型创建者已经实施了安全机制来限制模型行为到一个“安全”的能力子集。然而,这些模型仍然容易受到对抗性输入的攻击,这些攻击被设计用来引发模型被训练以避免的行为。本文的目标是通过检查模型的预训练和安全训练过程,分析安全训练的LLM对“越狱”攻击的脆弱性。
-
方法:提出两种安全训练的失败模式——竞争目标和不匹配的泛化——这两种模式可以解释为什么存在“越狱”攻击,并且可以用来创建新的攻击。在竞争目标中,模型的预训练和指令遵循目标与其安全目标相冲突。在不匹配的泛化中,输入对于模型的安全训练数据是离群点,但是在其广泛的预训练语料库的范围内。作者使用这两个原则来指导他们对攻击的设计空间的探索,每个原则都产生了各种各样的单独攻击。
-
优势:该方法能有效地评估LLM在处理新任务变体时的灵活性,并且在各种任务中都显示出了其有效性。此外,该方法揭示了模型在默认和反事实任务之间的行为关系,为理解和改进LLM提供了新的视角。
通过检查模型的预训练和安全训练过程,分析了安全训练的大型语言模型对“越狱”攻击的脆弱性,提出了两种安全训练的失败模式——竞争目标和不匹配的泛化,这两种模式可以解释为什么存在“越狱”攻击,并且可以用来创建新的攻击。
https://arxiv.org/abs/2307.02483
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢