BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP

2023年11月26日
  • 简介
    对比视觉-语言预训练模型,即CLIP,在解决下游图像识别任务方面显示出了很好的效果。然而,最近的研究表明,CLIP模型可以被植入一个面向下游的后门。在下游任务中,一个受害模型在处理干净的样本时表现良好,但只要出现特定的触发器,它就会预测一个特定的目标类别。为了注入后门,现有的攻击方法依赖于大量额外的数据来恶意微调整个预训练的CLIP模型,这使它们无法适用于数据有限的情况。在这项工作中,受可学习提示的最近成功启发,我们通过在提示学习阶段向CLIP模型注入后门来解决这个问题。我们的方法名为BadCLIP,建立在一种新颖而有效的机制之上,即通过触发器影响图像和文本编码器。它包括一个可学习的触发器应用于图像和一个触发器感知的上下文生成器,使得触发器可以通过触发器感知的提示改变文本特征,从而产生强大而具有泛化能力的攻击。在11个数据集上进行的广泛实验验证了BadCLIP的干净准确率与先进的提示学习方法相似,并且在大多数情况下攻击成功率高于99%。BadCLIP还具有泛化到未见过的类别,并在跨数据集和跨域设置下显示出强大的泛化能力。
  • 图表
  • 解决问题
    该论文旨在解决CLIP模型被植入下游导向的后门的问题,通过在提示学习阶段将后门注入到CLIP模型中来解决这个问题。这是否是一个新问题?
  • 关键思路
    该论文提出的BadCLIP方法是通过影响图像和文本编码器来注入后门,利用可学习的触发器应用于图像和基于触发器的上下文生成器,使触发器能够通过基于触发器的提示更改文本特征,从而实现强大且具有泛化能力的攻击。相比当前领域的研究,BadCLIP方法的关键思路是在提示学习阶段注入后门,从而避免了需要大量额外数据来恶意微调整个预训练CLIP模型的问题。
  • 其它亮点
    该论文的实验结果表明,BadCLIP的干净准确率与先进的提示学习方法相似,攻击成功率在大多数情况下高达99%。BadCLIP还具有泛化性能,在跨数据集和跨域设置下表现出强大的泛化能力。该论文使用了11个数据集进行广泛的实验验证,并且提供了开源代码。
  • 相关研究
    最近的相关研究包括:《On the Robustness of CLIP Models Against Backdoor Attacks》、《Defending Against Backdoor Attacks in CLIP》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论