How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States

2024年06月09日
  • 简介
    这篇文章讨论了大型语言模型(LLMs)如何依靠安全对齐来避免响应恶意用户输入。不幸的是,越狱可以绕过安全保障,导致LLMs生成有害内容,引起对LLM安全性的担忧。由于具有强大参数的语言模型通常被视为黑盒子,因此很难阐明对齐和越狱的机制。本文采用弱分类器通过中间隐藏状态来解释LLM的安全性。我们首先确认LLMs在预训练期间学习了伦理概念而不是对齐,并且可以在早期层次上识别恶意和正常输入。对齐实际上将早期概念与中间层的情绪猜测相关联,然后将它们细化为特定的拒绝标记以进行安全生成。越狱会干扰早期不道德分类转化为负面情绪的过程。我们在各种模型系列中对7B到70B的模型进行实验以证明我们的结论。总的来说,本文指出了LLM安全的本质机制以及越狱如何绕过安全保障,为LLM安全提供了新的视角并减少了担忧。我们的代码可在https://github.com/ydyjya/LLM-IHS-Explanation上获得。
  • 图表
  • 解决问题
    本论文旨在通过使用弱分类器来解释LLM安全性的机制和破解,以提供LLM安全性的新视角和减少相关担忧。
  • 关键思路
    通过中间隐藏状态使用弱分类器来解释LLM安全性的机制,证明LLMs在预训练期间学习了道德概念而不是对齐,并且可以在早期层中识别恶意和正常输入,对齐实际上将早期概念与中间层的情感猜测联系起来,然后将其细化为特定的拒绝标记以进行安全生成,而破解则干扰了早期不道德分类转化为负面情绪的转化。
  • 其它亮点
    论文使用了各种模型家族的7B到70B模型进行了实验,证明了LLMs在预训练期间学习了道德概念,使用弱分类器可以解释LLM安全性的机制,而破解则干扰了早期不道德分类转化为负面情绪的转化。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Language Models are Few-Shot Learners》和《GPT Understands, Too》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论