What Makes and Breaks Safety Fine-tuning? Mechanistic Study

简介

安全微调有助于使大型语言模型（LLMs）与人类的安全部署偏好相一致。为了更好地理解通过安全微调使模型安全的基本因素，我们设计了一个合成数据生成框架，通过建模模型执行的任务（例如“设计”）与任务要求执行的特定概念（例如“周期”与“炸弹”）之间的交互来捕获不安全输入的显著方面。利用这个框架，我们研究了三种著名的安全微调方法——监督安全微调、直接偏好优化和遗忘——并提供了显著的证据，证明这些方法最小化转换MLP权重，以将不安全的输入特别对齐到其权重的空空间。这产生了基于模型认为它们是否安全而聚类的输入。相应地，当提供一个对抗性输入（例如越狱）时，它的激活更接近于更安全的样本，导致模型将这样的输入处理为安全输入。我们在可能的情况下验证了我们的发现，具体来说是在真实的模型上——特别是Llama-2 7B和Llama-3 8B。
图表
解决问题

本论文旨在通过安全微调方法，将大型语言模型（LLMs）与人类安全偏好相一致，以确保LLMs的安全部署。通过设计一个合成数据生成框架，来捕捉模型对不安全输入的关键因素，从而探究三种已知的安全微调方法，即监督安全微调、直接偏好优化和去学习，并提供了大量证据证明这些方法最小化地将MLP权重转换为特别对齐不安全输入的权重的零空间。这导致了基于模型认为它们是否安全而对输入进行聚类。当提供对抗性输入时，其激活会更接近更安全的样本，从而导致模型将这样的输入处理为安全。
关键思路

本论文的关键思路是使用合成数据生成框架来模拟模型对不安全输入的反应，并探究三种安全微调方法的效果。通过将MLP权重转换为特别对齐不安全输入的权重的零空间，来使模型更好地对输入进行聚类。
其它亮点

本论文设计了一个合成数据生成框架，用于模拟模型对不安全输入的反应，并探究了三种安全微调方法的效果。实验结果表明，这些方法最小化地将MLP权重转换为特别对齐不安全输入的权重的零空间。当提供对抗性输入时，模型将这样的输入处理为安全。本论文还在真实世界的模型上进行了验证，特别是在Llama-2 7B和Llama-3 8B上。
相关研究

最近在这个领域中，还有一些相关研究。例如，有一篇名为“Language Models are Few-Shot Learners”的论文，探讨了语言模型的学习能力。还有一篇名为“Towards Safe Reinforcement Learning via Human Intervention”的论文，探讨了通过人类干预来实现安全强化学习的方法。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论