- 简介随着各种新的攻击策略被提出,视觉语言模型(VLMs)越来越容易受到对抗攻击。尽管现有的防御机制在单模态环境下表现出色,但它们目前在保护VLMs免受对抗威胁方面仍存在缺陷。为了减轻这种脆弱性,我们提出了一种新颖而简洁的方法来检测VLMs中的对抗样本。我们的方法利用文本到图像(T2I)模型根据目标VLMs生成图像的标题。随后,我们计算输入图像和生成图像在特征空间中的嵌入相似性,以识别对抗样本。对不同数据集进行的实证评估验证了我们方法的有效性,优于从图像分类领域改编的基线方法。此外,我们将我们的方法扩展到分类任务,展示了其适应性和模型无关性。理论分析和实证研究还表明,我们的方法对自适应攻击具有韧性,使其成为面对现实世界中的对抗威胁的出色防御机制。
- 图表
- 解决问题本论文旨在解决Vision-Language Models (VLMs)面临的对抗攻击问题,提出一种新的检测对抗样本的方法。
- 关键思路该方法利用Text-to-Image (T2I)模型生成基于目标VLMs生成的标题的图像,并计算特征空间中输入图像和生成图像的嵌入相似性来识别对抗样本。
- 其它亮点论文在不同数据集上进行了实证评估,验证了该方法的有效性,并展示了其对分类任务的适应性和模型无关性。该方法对自适应攻击也表现出韧性,是一个非常好的防御机制。论文还提出了一些值得深入研究的方向。
- 近期的相关研究包括:Adversarial Defense via Learning to Generate Diverse Attacks,Adversarial Attacks and Defenses in Images, Graphs and Text: A Review。
沙发等你来抢
去评论
评论
沙发等你来抢