FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts

2023年11月09日
  • 简介
    大型视觉语言模型(VLMs)如GPT-4V代表了人工智能领域的一次前所未有的革命。与单模大型语言模型(LLMs)相比,VLMs通过整合额外的模态(例如图像)具有更为多样化的能力。同时,人工智能社区对开源VLMs的开发充满了热情,例如LLaVA和MiniGPT4,但这些模型尚未经过严格的安全评估。本文提出了FigStep,一种新的针对VLMs的越狱框架,以展示更多模态会导致无法预料的人工智能安全问题。FigStep通过图像通道向VLMs输入有害指令,然后使用良性文本提示诱导VLMs输出违反常见人工智能安全策略的内容。我们的实验结果表明,FigStep可以在2个受欢迎的开源VLMs家族LLaVA和MiniGPT4(总共5个VLMs)中实现94.8%的平均攻击成功率。此外,我们证明了FigStep的方法甚至可以越狱GPT-4V,尽管该模型已经利用了几种系统级机制来过滤有害的查询。总之,我们的实验结果揭示了VLMs容易受到越狱攻击的漏洞,这凸显了视觉和文本模态之间新的安全对齐的必要性。
  • 图表
  • 解决问题
    本论文旨在展示多模态大型语言模型的漏洞和安全问题,提出了一种通过图像通道输入恶意指令的框架FigStep,用于攻击开源的多模态大型语言模型。同时,这篇论文也试图探索视觉和文本模态之间的新型安全对齐问题。
  • 关键思路
    本论文提出了一种名为FigStep的新型攻击框架,通过在图像通道中注入恶意指令,然后使用良性文本提示诱导多模态大型语言模型输出违反常见AI安全策略的内容。实验结果表明,FigStep可以在多个开源多模态大型语言模型中实现平均攻击成功率达到94.8%。此外,作者还探讨了视觉和文本模态之间的安全对齐问题。
  • 其它亮点
    本论文的亮点包括:提出了一种新型攻击框架FigStep,用于攻击开源多模态大型语言模型;实验结果表明FigStep可以在多个开源多模态大型语言模型中实现高攻击成功率;探讨了视觉和文本模态之间的安全对齐问题。
  • 相关研究
    相关论文包括:LLaVA和MiniGPT4等开源多模态大型语言模型的原始论文,以及其他关于多模态大型语言模型和AI安全的研究,如《Towards Understanding the Security Risks of Large Language Models》(作者:Zhangyin Feng等,机构:UC Berkeley)、《On the Vulnerability of Large Language Models to Bad Inputs》(作者:Anish Athalye等,机构:MIT)等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论