Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors

简介

大型语言模型越来越受到关注，也预示着多模态成为人工智能的下一个前沿，其中它们的嵌入被用作提示来生成文本内容。视觉语言模型（VLMs）处于这一进展的前沿，提供了将视觉和文本数据结合起来以增强理解和交互的创新方法。然而，这种集成也扩大了攻击面。基于补丁的对抗攻击被认为是物理视觉应用中最现实的威胁模型，正如许多现有文献所证明的那样。在本文中，我们提出解决补丁视觉提示注入的问题，其中对手利用对抗性补丁来生成VLMs中的目标内容。我们的调查表明，补丁对抗提示对像素级随机化表现出敏感性，这种特性即使在针对此类防御的自适应攻击面前仍然保持稳健。利用这一见解，我们引入了SmoothVLM，这是一种基于平滑技术的防御机制，专门为保护VLMs免受补丁视觉提示注入的威胁而设计。我们的框架显著降低了两个领先的VLMs的攻击成功率，降至0%到5.0%之间，同时实现了约67.3%到95.0%的良性图像上下文恢复，展示了安全性和可用性之间的平衡。

图表

解决问题

本文旨在解决视觉语言模型中的对抗性攻击问题，特别是针对对抗性贴片注入攻击的问题。

关键思路

本文提出了一种名为SmoothVLM的防御机制，利用平滑技术来保护视觉语言模型不受对抗性贴片注入攻击的影响。

其它亮点

实验结果表明，SmoothVLM能够显著降低对抗性攻击的成功率，并在保持高可用性的同时，提高了对正常图像的恢复率。

Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors

评论