When Do Universal Image Jailbreaks Transfer Between Vision-Language Models?

向作者提问

NEW

简介

新型模态集成到前沿AI系统中，提供了令人兴奋的功能，但也增加了这些系统被对抗性操纵的可能性。本文聚焦于一类流行的视觉语言模型（VLMs），该模型生成基于视觉和文本输入的文本输出。我们进行了一项大规模实证研究，以评估使用超过40个开放参数的VLMs的梯度通用图像“越狱”的可转移性，其中包括我们公开发布的18个新的VLMs。总体而言，我们发现梯度通用图像“越狱”非常难以获得。当针对单个VLM或一组VLM进行优化时，越狱成功越狱了被攻击的VLM（s），但几乎不会转移到任何其他VLMs上。转移不受被攻击和目标VLM是否具有匹配的视觉骨干或语言模型，语言模型是否经历了指令遵循和/或安全对齐训练，或其他许多因素的影响。只有两种情况显示出部分成功的转移：在略有不同的VLM训练数据的相同预训练和相同初始化的VLM之间，以及在单个VLM的不同训练检查点之间。利用这些结果，我们随后证明了通过攻击“高度相似”的VLMs的更大集合可以显着提高针对特定目标VLM的转移。这些结果与现有的针对语言模型的通用和可转移文本“越狱”以及针对图像分类器的可转移对抗性攻击的证据形成鲜明对比，表明VLMs可能对基于梯度的转移攻击更具鲁棒性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在评估视觉语言模型（VLMs）的梯度转移攻击的可行性和转移性。
关键思路

论文发现，针对单个或多个VLMs进行的图像破解攻击几乎不具备转移性，只有在某些特定情况下才会部分成功。作者还发现，攻击更多相似的VLMs可以提高攻击特定目标VLM的转移性。
其它亮点

论文使用了40多个开放参数的VLMs进行了大规模实验，其中包括18个新的VLMs，并公开了这些模型。作者还探讨了多种因素对转移攻击的影响，如视觉骨干和语言模型的匹配、指令遵循和安全对齐训练等。最终，论文发现VLMs相对于语言模型和图像分类器更加抗击转移攻击。
相关研究

最近的相关研究包括针对图像分类器的可转移对抗攻击和针对语言模型的通用文本破解攻击。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问