- 简介越来越多的人对大型语言模型(LLMs)与人类价值观的一致性表现出兴趣。但是,它们与视觉模块或视觉语言模型(VLMs)集成的安全问题仍然相对未被探索。本文提出了一种新型越狱攻击,旨在绕过用户输入有害指令时VLM的安全屏障。假设我们的有毒(图像,文本)数据对被包含在训练数据中。通过将原始文本标题替换为恶意越狱提示,我们的方法可以使用有毒图像执行越狱攻击。此外,我们分析了毒害比例和可训练参数位置对攻击成功率的影响。为了评估,我们设计了两个指标来量化攻击成功率和隐秘性。除此之外,我们还提供了一个精心策划的有害指令列表,以衡量攻击效果的基准。通过与基线方法的比较,我们展示了我们攻击的有效性。
-
- 图表
- 解决问题本论文旨在探讨视觉语言模型(VLMs)的安全问题,提出了一种新的越狱攻击方法,以绕过其安全屏障。
- 关键思路本论文提出了一种新的越狱攻击方法,通过在训练数据中注入恶意图像和文本数据对,替换原始文本标题为恶意越狱提示,从而在输入有害指令时绕过VLMs的安全屏障。
- 其它亮点本论文设计了两个指标来评估攻击的成功率和隐蔽性,并提供了一个衡量攻击效果的基准,包括一个有害指令列表。实验结果表明,该攻击方法的成功率较高,具有较强的隐蔽性。
- 最近的相关研究包括《对抗攻击下的深度学习模型安全》、《大规模语言模型的价值对齐问题》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流