Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats

2024年09月29日
  • 简介
    多模态对比学习利用各种数据模态创建高质量特征,但其依赖于互联网上广泛的数据来源,使其容易受到后门攻击的威胁。这些攻击会在训练过程中插入恶意行为,在推理过程中由特定触发器激活,造成重大安全风险。尽管现有的对抗措施通过微调来减少此类攻击的恶意影响,但这些防御措施往往需要长时间的训练,并且会降低模型的准确性。在本研究中,我们提出了一种高效的防御机制,采用一种称为机器遗忘的概念来防御后门威胁。这意味着有策略地创建一小组毒瘤样本,帮助模型快速遗忘后门漏洞,即Unlearn Backdoor Threats (UBT)。我们具体使用过拟合训练来改善后门快捷方式,并准确检测潜在污染数据集中的可疑样本。然后,我们从可疑样本中选择更少的未学习样本,以快速遗忘并消除后门效应,从而提高后门防御效率。在后门遗忘过程中,我们提出了一种新颖的基于令牌的部分遗忘训练方案。这种技术专注于模型的受损元素,分离后门相关性,同时保持模型的整体完整性。广泛的实验结果表明,我们的方法有效地防御了CLIP模型中各种后门攻击方法。与现有的后门防御方法相比,UBT实现了最低的攻击成功率,同时保持模型的高准确性(与SOTA相比,攻击成功率降低了19%,而干净准确性提高了2.57%)。
  • 图表
  • 解决问题
    本论文旨在提出一种高效的对抗后门防御机制,使用机器遗忘的概念来快速消除后门漏洞,并提高后门防御效率。
  • 关键思路
    该论文的关键思路是使用机器遗忘技术来快速消除后门漏洞,通过选择少量的未学习样本来消除后门效应,从而提高后门防御效率。
  • 其它亮点
    该论文提出了一种名为Unlearn Backdoor Threats (UBT)的对抗后门防御机制,使用机器遗忘技术来快速消除后门漏洞,提高后门防御效率。该论文的实验结果表明,UBT在CLIP模型中能够有效地防御各种后门攻击方法,相比最先进的对抗后门防御方法,UBT的攻击成功率降低了19%,同时保持了模型的高准确性。
  • 相关研究
    最近的相关研究包括使用Fine-tuning和其他技术进行对抗后门防御,如Defensive Distillation和Virtual Adversarial Training。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论