- 简介大型语言模型(LLMs)如Llama-2或GPT-4展示了令人印象深刻的零-shot性能,但仍需要微调以增强其在定制数据集、特定领域任务或其他私人需求方面的表现。然而,微调LLMs的所有参数需要大量硬件资源,这对于一般用户来说可能不切实际。因此,出现了参数高效的微调方法,如LoRA,允许用户在不需要大量计算资源的情况下微调LLMs,并且与微调所有参数相比,性能下降很小。不幸的是,最近的研究表明,即使数据不包含恶意内容,微调也会增加LLMs安全风险。为了解决这个挑战,我们提出了Safe LoRA,它是对原始LoRA实现的一个简单的一行补丁,通过将LoRA权重从选定的层投影到安全对齐子空间,有效降低LLM微调中的安全风险,同时保持效用。值得注意的是,Safe LoRA是一种无需训练和数据的方法,因为它只需要基础LLMs和对齐LLMs的权重知识。我们广泛的实验表明,当在纯恶意数据上微调时,Safe LoRA保持了与原始对齐模型类似的安全性能。此外,当微调数据集包含混合的良性和恶意数据时,Safe LoRA减轻了恶意数据产生的负面影响,同时保持了下游任务的性能。
- 图表
- 解决问题论文试图解决如何在fine-tuning LLMs时提高安全性的问题。
- 关键思路Safe LoRA是一种简单的方法,通过将LoRA权重从选定的层投影到安全对齐子空间来提高安全性,同时保持效用。这是一种无需训练和数据的方法。
- 其它亮点论文提出的Safe LoRA方法可以在fine-tuning LLMs时提高安全性,而无需大量计算资源。实验结果表明,当fine-tuning数据仅包含恶意内容时,Safe LoRA可以保持与原始对齐模型相似的安全性能。当数据集包含恶意和良性数据时,Safe LoRA可以减轻恶意数据对下游任务的负面影响,同时保持性能。
- 最近的相关研究主要集中在提高LLMs的安全性方面,如Adversarial Training和Defensive Distillation。
沙发等你来抢
去评论
评论
沙发等你来抢