Safety Alignment Should Be Made More Than Just a Few Tokens Deep

2024年06月10日
  • 简介
    当前大型语言模型(LLMs)的安全对齐存在漏洞。相对简单的攻击,甚至是良性微调,都可以破解已对齐的模型。我们认为,这些漏洞中许多都与一个共同的根本问题有关:安全对齐可能会采取捷径,即对齐主要适应模型的生成分布仅限于其最初的几个输出标记。我们将这个问题称为浅层安全对齐。在本文中,我们提供案例研究,以解释为什么浅层安全对齐可能存在,并提供证据表明当前的对齐LLMs也受到这个问题的影响。我们还展示了这些发现如何帮助解释LLMs中多个最近发现的漏洞,包括易受到对抗性后缀攻击、预填充攻击、解码参数攻击和微调攻击的影响。重要的是,我们讨论了这种浅层安全对齐的综合概念如何为减轻这些漏洞提供有前途的研究方向。例如,我们展示了将安全对齐加深到仅仅前几个标记之外通常可以显著提高对一些常见攻击的鲁棒性。最后,我们设计了一个正则化微调目标,通过限制对初始标记的更新,使安全对齐更加持久,以防范微调攻击。总之,我们主张未来的安全对齐应该不仅仅局限于前几个标记。
  • 图表
  • 解决问题
    本论文旨在解决当前大型语言模型(LLMs)的安全对齐存在漏洞的问题,即安全对齐可能只适用于模型的前几个输出标记,而无法覆盖整个模型的生成分布。
  • 关键思路
    本文提出了深度安全对齐的概念,并探讨了浅层安全对齐的原因和后果。此外,作者提出了一种正则化的微调目标,使安全对齐对微调攻击更加持久。
  • 其它亮点
    本文的实验结果表明,深度安全对齐可以显著提高模型对某些常见攻击的鲁棒性。此外,本文还介绍了多个最近发现的LLMs漏洞,并提供了相应的解决方案。作者还使用了多个数据集进行了实验,并开源了相关代码。
  • 相关研究
    最近的相关研究包括《On the Robustness of Neural Machine Translation Models to Fine-tuning》、《Adversarial Attacks on Large Language Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论