本文为北京大学的研究者提出的基于中间层特征的文本后门防御工作,其基于对近年来提出的多种针对预训练语言模型的后门攻击(backdoor attack)的分析,经验性地揭示了下毒样本(poisoned examples)和干净样本(clean examples)在带后门模型的中间层特征空间是高度可分的,由此设计了一种集成各中间层特征距离分数的在线后门检测方法 DAN(Distance-Based Anomaly Score),用于在模型推理阶段检测下毒样本。
论文标题:
Expose Backdoors on the Way: A Feature-Based Efficient Defense against Textual Backdoor Attacks
https://arxiv.org/pdf/2210.07907.pdf
Findings of EMNLP 2022
1.1 NLP中的后门攻击
下图是代表性工作 Weight Poisoning Attacks on Pretrained Models [2] 中给出的攻击过程示意图和以稀有词为 trigger 的部分数据(原本负面的评价被攻击为正面):
考虑到在大模型时代,缺乏计算资源的用户通常下载预训练权重直接使用或者作为初始化进行微调,潜在的后门攻击对预训练-微调这一范式造成了严重的安全威胁。因此,研究者提出了一系列防御方法以保护 NLP 模型免受后门攻击的威胁,总体可分为三类:
-
数据集保护 Dataset Protection:目标是去除公共数据集中带后门的下毒数据 [7],适用于用户下载公共数据集、从随机初始化开始训练模型的场景(在 CV 中更常见),不适用于 NLP 中流行的模型下毒(weight poisoning)设定(用户下载被下毒的第三方模型权重直接部署或者进行微调);
-
离线防御 Offline Defense:在模型部署上线之前试图检测预训练权重中是否存在后门并/或通过剪枝、微调等优化方法消除之,如 T-Miner [8]、Fine-Pruning [9]、Fine-Mixing [9] 等,其缺点是需要额外的训练优化过程,对缺乏专业知识的普通模型用户并不友好;
-
在线防御 Online Defense: 目标是在模型部署上线后,能将带 trigger 的样本作为异常输入识别出来拒绝预测,从而达到在线防御后门攻击的目的,如 STRIP [11]、ONION [12]、RAP [13] 等,不需要重新训练受保护的模型本身,对普通的模型用户较友好,本文提出的防御方法也属于在线防御。
评论
沙发等你来抢