- 简介大型视觉语言模型(VLM)扩展和增强了大型语言模型(LLM)的感知能力。尽管为LLM应用程序提供了新的可能性,但这些进展引发了重大的安全和伦理关切,特别是有关生成有害内容的问题。虽然LLM经过了广泛的安全评估,但VLM目前缺乏一个成熟的安全评估框架。为了填补这一空白,我们引入了Arondight,这是一个专门针对VLM量身定制的标准化红队框架。Arondight致力于解决从LLM到VLM的过渡中遇到的视觉模态缺失和不充分多样性问题。我们的框架采用自动化多模态越狱攻击,其中红队VLM生成视觉越狱提示,而由强化学习代理指导的红队LLM生成文本提示。为了增强VLM安全评估的全面性,我们集成了熵奖励和新颖性奖励指标。这些元素激励RL代理引导红队LLM创建更广泛、更多样化和以前未见过的测试用例。我们对十个尖端的VLM进行了评估,揭示了显著的安全漏洞,特别是在生成有毒图像和对齐多模态提示方面。特别是,我们的Arondight在OpenAI定义的所有十四个禁止场景中,在生成有毒文本方面对GPT-4实现了84.5%的平均攻击成功率。为了更清楚地比较,我们还根据它们的安全级别对现有的VLM进行分类,并提供相应的强化建议。我们的多模态提示数据集和红队代码将在伦理委员会批准后发布。内容警告:本文包含有害的模型响应。
- 图表
- 解决问题本文旨在针对大型视觉语言模型(VLMs)的安全问题提出解决方案,特别是在生成有害内容方面。作者认为现有的红队测试框架无法很好地适应VLMs的特点,需要提出一种新的标准化红队测试框架。
- 关键思路作者提出了一种名为Arondight的标准化红队测试框架,包括自动化的多模态越狱攻击和熵奖励机制等,以解决VLMs的安全问题。该框架通过自动化生成视觉越狱提示和文本提示,并使用强化学习代理指导红队LLM生成多样化的测试用例。
- 其它亮点本文设计了实验来评估十种最新的VLMs的安全性,发现这些模型在生成有害图像和对齐多模态提示方面存在重大漏洞。作者还提供了一个基于安全等级的分类方法,并给出了相应的加强建议。作者还将多模态提示数据集和红队代码公开发布。
- 在相关研究方面,最近的研究集中在大型视觉语言模型的安全性和红队测试框架的设计上。类似的论文包括《GPT-3的安全性评估》和《针对大型语言模型的红队测试框架》等。
沙发等你来抢
去评论
评论
沙发等你来抢