Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning

简介

最近的研究表明，具有安全对齐功能的大型语言模型（LLMs）可以通过在混合有害数据的数据集上微调来越狱。在文献中首次，我们展示了分离状态以优化对齐和用户数据集的微调阶段可以减轻越狱效应。不幸的是，我们随后的研究表明，当投入对齐状态的步骤过少时，这种简单的双状态优化（BSO）解决方案会经历收敛不稳定性，导致对齐性能下降。通过统计分析，我们展示了向共识的过度漂移可能是不稳定性的一个可能原因。为了解决这个问题，我们提出了\textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment（\textbf{Lisa}），它引入了一个接近项来约束每个状态的漂移。理论上，接近项的好处得到了收敛分析的支持，其中我们展示了足够大的接近因子是保证Lisa收敛的必要条件。实证上，我们在四个下游微调任务上的结果表明，具有接近项的Lisa可以显著提高对齐性能，同时保持LLM在用户任务上的准确性。代码可在\url{https://github.com/git-disl/Lisa}上找到。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文尝试解决Large Language Models (LLMs)在fine-tuning时被有害数据破解的问题，并提出了一种新的解决方案Lisa。
关键思路

文章提出的解决方案是Lazy(i) safety alignment (Lisa)，通过引入一个proximal term来控制每个状态的漂移，从而提高对齐性能。
其它亮点

实验结果表明，Lisa在维持LLM的准确性的同时，显著提高了对齐性能。研究还发现，过小的对齐步长可能导致收敛不稳定，而proximal term可以解决这个问题。代码已经开源。
相关研究

近期相关研究包括Fine-tuning language models from human preferences和The Power of Scale for Parameter-Efficient Prompt Tuning等。

Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning

提问交流

提问交流