ImgTrojan: Jailbreaking Vision-Language Models with ONE Image

简介

越来越多的人对大型语言模型（LLMs）与人类价值观的一致性表现出兴趣。但是，它们与视觉模块或视觉语言模型（VLMs）集成的安全问题仍然相对未被探索。本文提出了一种新型越狱攻击，旨在绕过用户输入有害指令时VLM的安全屏障。假设我们的有毒（图像，文本）数据对被包含在训练数据中。通过将原始文本标题替换为恶意越狱提示，我们的方法可以使用有毒图像执行越狱攻击。此外，我们分析了毒害比例和可训练参数位置对攻击成功率的影响。为了评估，我们设计了两个指标来量化攻击成功率和隐秘性。除此之外，我们还提供了一个精心策划的有害指令列表，以衡量攻击效果的基准。通过与基线方法的比较，我们展示了我们攻击的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探讨视觉语言模型（VLMs）的安全问题，提出了一种新的越狱攻击方法，以绕过其安全屏障。
关键思路

本论文提出了一种新的越狱攻击方法，通过在训练数据中注入恶意图像和文本数据对，替换原始文本标题为恶意越狱提示，从而在输入有害指令时绕过VLMs的安全屏障。
其它亮点

本论文设计了两个指标来评估攻击的成功率和隐蔽性，并提供了一个衡量攻击效果的基准，包括一个有害指令列表。实验结果表明，该攻击方法的成功率较高，具有较强的隐蔽性。
相关研究

最近的相关研究包括《对抗攻击下的深度学习模型安全》、《大规模语言模型的价值对齐问题》等。

ImgTrojan: Jailbreaking Vision-Language Models with ONE Image

提问交流

提问交流