What Makes and Breaks Safety Fine-tuning? A Mechanistic Study

简介

安全微调有助于使大型语言模型（LLMs）与人类偏好保持一致，以便安全地部署。为了更好地理解通过安全微调使模型变得安全的基本因素，我们设计了一个合成数据生成框架，通过模拟模型执行任务（例如“设计”）与任务所针对的具体概念（例如“循环”与“炸弹”）之间的交互来捕捉不安全输入的显著方面。在此基础上，我们研究了三种著名的安全微调方法——监督式安全微调、直接偏好优化和遗忘——并提供了显著的证据，证明这些方法最小化了多层感知器（MLP）权重，以便将不安全的输入特别对齐到其权重的空间中。这导致了基于模型对输入是否安全的聚类。相应地，当提供一个对抗性输入（例如越狱）时，其激活更接近于更安全的样本，导致模型将这样的输入处理为安全输入。我们在可能的情况下验证了我们的发现，特别是在现实世界的模型——具体来说是Llama-2 7B和Llama-3 8B上进行了验证。
图表
解决问题

本文旨在通过设计一种合成数据生成框架，来深入理解安全微调对大型语言模型的影响。作者试图解决的问题是如何使得模型能够更好地与人类偏好相一致，以便安全地部署。同时，作者还探讨了三种常见的安全微调方法，并提供了大量证据证明这些方法最小化地将MLP权重转换为将不安全输入与其权重的零空间对齐。
关键思路

本文的关键思路是通过建立一个合成数据生成框架，来模拟模型处理不安全输入的交互过程。此外，作者还提出了三种安全微调方法，并证明这些方法能够帮助模型将不安全输入对齐到其权重的零空间中。
其它亮点

本文的亮点在于提出了一种合成数据生成框架，用于模拟模型处理不安全输入的交互过程，并探讨了三种常见的安全微调方法。作者还在现有模型上进行了验证，并提供了大量证据证明这些方法的有效性。此外，作者还提供了一些值得关注的实验细节和数据集信息。需要注意的是，本文并未提供开源代码。
相关研究

最近在这个领域中，还有一些相关的研究。例如，有一些研究探讨了如何设计更加安全的大型语言模型，如《Towards Safe and Trustworthy Language AI》。还有一些研究探讨了如何在不同任务和数据集上微调模型，如《Adapting Language Models to New Tasks: Benchmarking Few-Shot Learning Approaches》。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论