最近,NLP见证了大型预训练模型使用的激增。用户下载在大型数据集上预先训练的模型的权重,然后在他们选择的任务上微调权重。这就提出了一个问题:下载未经训练的不可信的权重是否会造成安全威胁。在这篇论文中,本文证明了构造“权重中毒”攻击是可能的,即预先训练的权重被注入漏洞,在微调后暴露“后门”,使攻击者能够通过注入任意关键字来操纵模型预测。本文证明,通过应用正则化方法和初始化过程,即使对数据集和微调过程的了解有限,这种攻击也是可能的。本文在情感分类、垃圾邮件检测等方面的实验表明,该攻击具有广泛的适用性和严重的威胁。最后,本文了针对此类攻击的实际防御。

内容中包含的图片若涉及版权问题,请及时与我们联系删除