- 简介大型视觉语言模型(VLM)例如GPT-4已经取得了显著的成功,生成了全面而细致的响应,超越了大型语言模型的能力。然而,随着视觉输入的整合,新的安全问题出现了,恶意攻击者可以利用多种模式来实现他们的目标。这导致了对VLM对越狱漏洞的关注增加。大多数现有的研究集中在生成对抗性图像或无意义的图像集合来破坏这些模型。然而,利用有意义的图像来使用VLM的逻辑理解生成有针对性的文本内容的挑战仍未得到探索。在本文中,我们探讨了从有意义的图像到文本的逻辑越狱问题。为了研究这个问题,我们引入了一个新颖的数据集,旨在评估流程图像越狱。此外,我们开发了一个使用VLM进行文本到文本越狱的框架。最后,我们对GPT-4o和GPT-4-vision-preview进行了广泛的评估,越狱率分别为92.8%和70.0%。我们的研究揭示了当前VLM在图像到文本越狱方面的重大漏洞。这些发现强调了在实际部署之前需要更深入地检查VLM的安全漏洞的必要性。
-
- 图表
- 解决问题本论文探讨了大型视觉语言模型(VLMs)在面对图像输入时的安全漏洞问题,尤其是针对从有意义的图像到文本的逻辑越狱问题。
- 关键思路论文提出了一个基于VLMs的文本-to-text jailbreak框架,通过对流程图图像的研究,揭示了当前VLMs在图像到文本越狱中存在的重大漏洞。
- 其它亮点论文提出了一个新的数据集用于评估流程图像越狱,同时开发了一个基于VLMs的文本-to-text jailbreak框架,并在GPT-4o和GPT-4-vision-preview上进行了广泛评估,揭示了当前VLMs在图像到文本越狱方面的重大漏洞。
- 最近的相关研究主要集中在生成对抗性图像或荒谬的图像集来破坏VLMs,而本论文则是首次探讨了如何利用有意义的图像来产生有针对性的文本内容。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流