- 简介本文首次从安全角度研究了大型语言模型(LLM)量化的负面影响,尽管LLM量化的实用性已经得到了广泛探讨。我们揭示了常用的量化方法可以被利用来产生有害的量化LLM,即使完整精度的对应模型看起来是良性的,也可能欺骗用户部署恶意量化模型。我们使用三阶段攻击框架证明了这种威胁:首先,我们通过对抗性任务微调获得恶意LLM;接下来,我们量化恶意模型并计算约束条件,这些条件表征了所有映射到相同量化模型的完整精度模型;最后,我们使用投影梯度下降,从完整精度模型中调整出中毒行为,同时确保其权重满足第二步中计算的约束条件。这个过程导致LLM在完整精度下表现出良好的行为,但在量化时,它遵循第一步注入的对抗性行为。我们在三种不同的场景下进行了实验,展示了这种攻击的可行性和严重性:易受攻击的代码生成、内容注入和过度拒绝攻击。在实践中,攻击者可以将结果完整精度模型托管在LLM社区中,如Hugging Face,从而使数百万用户面临部署其恶意量化版本的威胁。
-
- 图表
- 解决问题研究LLM量化对安全性的影响,揭示量化方法可能被利用产生恶意模型,从而欺骗用户部署恶意模型。
- 关键思路通过三阶段攻击框架,利用对抗任务微调获得恶意LLM,将其量化并计算约束条件,从而通过投影梯度下降调整全精度模型以消除恶意行为,最终得到一个在全精度下表现良好但在量化后遵循注入的恶意行为的LLM。
- 其它亮点实验验证了攻击的可行性和严重性,涉及三种不同的场景,作者提出了一种新的安全威胁并提供了一种检测方法。
- 最近的相关研究包括对抗攻击和LLM安全性的研究,例如Adversarial Training for Free!和BERT is not Robust?,以及LLM量化的研究,例如Quantifying the Effects of Quantization in Multilingual BERT。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流