Towards Adversarially Robust Vision-Language Models: Insights from Design Choices and Prompt Formatting Techniques

简介

视觉语言模型（VLMs）在研究和实际应用中都得到了大量的关注。然而，随着它们变得越来越普遍，确保它们对抗攻击的鲁棒性至关重要。本文系统地研究了模型设计选择对基于图像攻击的VLMs的对抗鲁棒性的影响。此外，我们引入了新的、成本效益高的方法来通过提示格式来增强鲁棒性。通过重新表述问题和建议潜在的对抗性扰动，我们展示了模型鲁棒性在强图像攻击（如Auto-PGD）方面的显著提高。我们的发现为开发更加鲁棒的VLMs提供了重要的指导，特别是在安全关键环境中的部署。
图表
解决问题

研究Vision-Language Models (VLMs)在图像攻击下的鲁棒性问题，提出增强鲁棒性的新方法。
关键思路

通过格式化问题和建议潜在的对抗扰动，提高VLMs对图像攻击的鲁棒性。
其它亮点

论文系统地研究了模型设计选择对VLMs在图像攻击下的鲁棒性的影响。通过重新表述问题和建议潜在的对抗扰动，实现了模型对抗攻击的显著提升。
相关研究

最近的相关研究包括：Adversarial Robustness in Natural Language Processing: A Survey，Adversarial Examples in Modern Machine Learning: A Review。