Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective

简介

预训练的视觉-语言模型（VLMs）如CLIP在各种下游任务中表现出令人印象深刻的泛化性能，但它们仍然容易受到对抗性攻击的影响。虽然先前的研究主要集中在提高图像编码器的对抗性鲁棒性，以防止对图像的攻击，但对基于文本和多模态的攻击的探索却基本被忽视了。在这项工作中，我们开展了首次已知和全面的研究，以研究如何使视觉-语言模型在多模态攻击下具有对抗性鲁棒性。首先，我们介绍了一种多模态攻击策略，并研究了不同攻击的影响。然后，我们提出了一种多模态对比对抗训练损失，将干净和对抗文本嵌入与对抗和干净的视觉特征对齐，以增强CLIP的图像和文本编码器的对抗性鲁棒性。在两个任务的15个数据集上进行的广泛实验表明，我们的方法显著提高了CLIP的对抗性鲁棒性。有趣的是，我们发现，针对多模态对抗攻击进行微调的模型比仅针对基于图像的攻击进行微调的模型在图像攻击的情况下表现出更高的鲁棒性，这可能为增强VLMs的安全性开辟了新的可能性。
图表
解决问题

本文旨在研究视觉-语言模型（VLMs）在多模态攻击下的鲁棒性，并提出一种对抗训练方法来增强模型的鲁棒性。
关键思路

本文提出了一种多模态对抗训练方法，通过对齐干净和对抗文本嵌入与对抗和干净视觉特征，来增强CLIP图像和文本编码器的鲁棒性。
其它亮点

本文是首个全面研究适应多模态攻击的VLMs鲁棒性的工作。实验结果表明，本文提出的方法显著提高了CLIP模型的鲁棒性，并且发现用多模态对抗训练方法微调的模型在图像攻击下表现出更强的鲁棒性。
相关研究

近期的相关研究包括：1）对抗攻击与防御的研究，2）VLMs的训练和fine-tuning技术，3）图像和文本的对齐方法。

Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective

评论