- 简介最近的研究表明,具有安全对齐功能的大型语言模型(LLMs)可以通过在混合有害数据的数据集上微调来越狱。在文献中首次,我们展示了分离状态以优化对齐和用户数据集的微调阶段可以减轻越狱效应。不幸的是,我们随后的研究表明,当投入对齐状态的步骤过少时,这种简单的双状态优化(BSO)解决方案会经历收敛不稳定性,导致对齐性能下降。通过统计分析,我们展示了向共识的过度漂移可能是不稳定性的一个可能原因。为了解决这个问题,我们提出了\textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment(\textbf{Lisa}),它引入了一个接近项来约束每个状态的漂移。理论上,接近项的好处得到了收敛分析的支持,其中我们展示了足够大的接近因子是保证Lisa收敛的必要条件。实证上,我们在四个下游微调任务上的结果表明,具有接近项的Lisa可以显著提高对齐性能,同时保持LLM在用户任务上的准确性。代码可在\url{https://github.com/git-disl/Lisa}上找到。
-
- 图表
- 解决问题本文尝试解决Large Language Models (LLMs)在fine-tuning时被有害数据破解的问题,并提出了一种新的解决方案Lisa。
- 关键思路文章提出的解决方案是Lazy(i) safety alignment (Lisa),通过引入一个proximal term来控制每个状态的漂移,从而提高对齐性能。
- 其它亮点实验结果表明,Lisa在维持LLM的准确性的同时,显著提高了对齐性能。研究还发现,过小的对齐步长可能导致收敛不稳定,而proximal term可以解决这个问题。代码已经开源。
- 近期相关研究包括Fine-tuning language models from human preferences和The Power of Scale for Parameter-Efficient Prompt Tuning等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流