Soft Prompts Go Hard: Steering Visual Language Models with Hidden Meta-Instructions

2024年07月12日
  • 简介
    我们介绍了一种新型间接注入漏洞,针对的是对图像进行操作的语言模型:隐藏的“元指令”,可以影响模型如何解释图像,并引导模型的输出来表达对手选择的风格、情感或观点。我们解释了如何通过生成作为软提示的图像来创建元指令。与越狱攻击和对抗性示例不同,这些图像产生的输出是合理的,并且基于图像的视觉内容,但是遵循对手的(元)指令。我们描述了这些攻击的风险,包括错误信息和宣传,评估了它们对多个视觉语言模型和对抗元目标的有效性,并展示了它们如何“解锁”底层语言模型的功能,这些功能通过明确的文本指令是无法实现的。最后,我们讨论了对抗这些攻击的防御措施。
  • 图表
  • 解决问题
    论文旨在介绍一种新型的间接注入漏洞,通过生成图像作为软提示以影响语言模型的输出,从而表达对手选择的风格、情感或观点。
  • 关键思路
    通过生成图像作为软提示,生成隐藏的元指令,以影响语言模型的输出,从而表达对手选择的风格、情感或观点。
  • 其它亮点
    论文介绍了如何创建元指令,并评估了它们在多个视觉语言模型和对手元目标上的有效性。实验结果表明,这种攻击可以“解锁”底层语言模型的能力,而这些能力通过明确的文本指令是无法实现的。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“Jailbreak Attacks and Adversarial Examples on Recurrent Neural Networks”和“Adversarial Examples for Semantic Image Segmentation”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论