Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors

2024年05月17日
  • 简介
    大型语言模型越来越受到关注,也预示着多模态成为人工智能的下一个前沿,其中它们的嵌入被用作提示来生成文本内容。视觉语言模型(VLMs)处于这一进展的前沿,提供了将视觉和文本数据结合起来以增强理解和交互的创新方法。然而,这种集成也扩大了攻击面。基于补丁的对抗攻击被认为是物理视觉应用中最现实的威胁模型,正如许多现有文献所证明的那样。在本文中,我们提出解决补丁视觉提示注入的问题,其中对手利用对抗性补丁来生成VLMs中的目标内容。我们的调查表明,补丁对抗提示对像素级随机化表现出敏感性,这种特性即使在针对此类防御的自适应攻击面前仍然保持稳健。利用这一见解,我们引入了SmoothVLM,这是一种基于平滑技术的防御机制,专门为保护VLMs免受补丁视觉提示注入的威胁而设计。我们的框架显著降低了两个领先的VLMs的攻击成功率,降至0%到5.0%之间,同时实现了约67.3%到95.0%的良性图像上下文恢复,展示了安全性和可用性之间的平衡。
  • 图表
  • 解决问题
    本文旨在解决视觉语言模型中的对抗性攻击问题,特别是针对对抗性贴片注入攻击的问题。
  • 关键思路
    本文提出了一种名为SmoothVLM的防御机制,利用平滑技术来保护视觉语言模型不受对抗性贴片注入攻击的影响。
  • 其它亮点
    实验结果表明,SmoothVLM能够显著降低对抗性攻击的成功率,并在保持高可用性的同时,提高了对正常图像的恢复率。
  • 相关研究
    与本文相关的研究包括大型语言模型、视觉语言模型以及对抗性攻击防御机制等方面的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论