Representation noising effectively prevents harmful fine-tuning on LLMs

简介

发布开源大型语言模型（LLM）存在双重用途风险，因为恶意行为者可以轻松地对这些模型进行有害用途的微调。即使没有权重的开放式发布，权重窃取和微调API也会使封闭模型容易受到有害微调攻击（HFA）的影响。虽然防止越狱和改进安全防护措施等安全措施很重要，但这些措施很容易通过微调来逆转。在这项工作中，我们提出了表示噪声（RepNoise）防御机制，即使攻击者可以访问权重且防御者不再具有任何控制权，该机制也是有效的。RepNoise的工作原理是通过删除有害表示的信息，使其在微调期间难以恢复。重要的是，我们的防御措施还能够在没有进行防御过程的情况下概括不同的有害子集。我们的方法不会降低LLM的一般能力，并保留在无害任务上训练模型的能力。我们提供了经验证据，证明我们的防御措施的有效性在于其“深度”：即在LLM的所有层中删除有害表示的程度。
图表
解决问题

如何防止开源大型语言模型被恶意利用进行有害的微调？
关键思路

采用Representation Noising（RepNoise）的防御机制，通过减少有害表示的信息，使得在微调过程中难以恢复这些信息，从而防止模型被恶意利用。
其它亮点

RepNoise不会降低模型的一般能力，并且能够推广到没有在防御过程中看到的不同有害子集。实验结果表明，RepNoise的有效性在于其“深度”：在所有层中减少有害表示的信息程度。
相关研究

最近的相关研究包括OpenAI发布的GPT-2和GPT-3模型的安全性研究，以及其他一些防御机制的提出，如Adversarial Training和Fine-tuning with Adversarial Perturbations。

Representation noising effectively prevents harmful fine-tuning on LLMs

评论