- 简介自监督学习模型容易受到后门攻击。目前在自监督学习中有效的后门攻击通常涉及显眼的触发器,如有色补丁,这些触发器容易受到人类检查的攻击。本文提出了一种对自监督模型的不可感知且有效的后门攻击。我们首先发现,为监督学习设计的现有不可察觉的触发器在破坏自监督模型方面并不有效。然后,我们确定这种无效性归因于自监督学习中使用的后门和增强样本之间分布的重叠。基于这一认识,我们设计了一种攻击,使用优化的触发器,这些触发器与自监督学习中的增强变换分离,同时对人类视觉不可感知。在五个数据集和七个自监督学习算法上的实验表明,我们的攻击非常有效且隐蔽。它还具有对现有后门防御的强大抵抗力。我们的代码可以在 https://github.com/Zhang-Henry/IMPERATIVE 找到。
- 图表
- 解决问题本文旨在提出一种针对自监督学习模型的不可感知的后门攻击,解决现有后门攻击易被人类检测到的问题。同时,对现有的无监督学习中后门攻击的有效性进行了研究。
- 关键思路本文提出了一种优化触发器的攻击方法,使其与自监督学习中的增强变换相分离,同时保持对人类视觉不可感知。通过在五个数据集和七个自监督学习算法上的实验,证明了该攻击方法的高效性和隐蔽性,并且对现有的后门防御具有强大的抵抗力。
- 其它亮点本文的亮点包括:1.提出了一种不可感知的后门攻击方法,解决了现有后门攻击易被人类检测到的问题;2.实验结果表明该攻击方法的高效性和隐蔽性,并且对现有的后门防御具有强大的抵抗力;3.开源了代码。
- 最近的相关研究包括:1.《BadNets: Evaluating Backdooring Attacks on Deep Neural Networks》;2.《Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks》;3.《The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks》。
沙发等你来抢
去评论
评论
沙发等你来抢