- 简介我们介绍了一种新型间接注入漏洞,针对的是对图像进行操作的语言模型:隐藏的“元指令”,可以影响模型如何解释图像,并引导模型的输出来表达对手选择的风格、情感或观点。我们解释了如何通过生成作为软提示的图像来创建元指令。与越狱攻击和对抗性示例不同,这些图像产生的输出是合理的,并且基于图像的视觉内容,但是遵循对手的(元)指令。我们描述了这些攻击的风险,包括错误信息和宣传,评估了它们对多个视觉语言模型和对抗元目标的有效性,并展示了它们如何“解锁”底层语言模型的功能,这些功能通过明确的文本指令是无法实现的。最后,我们讨论了对抗这些攻击的防御措施。
- 图表
- 解决问题论文旨在介绍一种新型的间接注入漏洞,通过生成图像作为软提示以影响语言模型的输出,从而表达对手选择的风格、情感或观点。
- 关键思路通过生成图像作为软提示,生成隐藏的元指令,以影响语言模型的输出,从而表达对手选择的风格、情感或观点。
- 其它亮点论文介绍了如何创建元指令,并评估了它们在多个视觉语言模型和对手元目标上的有效性。实验结果表明,这种攻击可以“解锁”底层语言模型的能力,而这些能力通过明确的文本指令是无法实现的。
- 最近在这个领域中,还有一些相关的研究,例如“Jailbreak Attacks and Adversarial Examples on Recurrent Neural Networks”和“Adversarial Examples for Semantic Image Segmentation”。
沙发等你来抢
去评论
评论
沙发等你来抢