Soft Prompts Go Hard: Steering Visual Language Models with Hidden Meta-Instructions

简介

我们介绍了一种新型间接注入漏洞，针对的是对图像进行操作的语言模型：隐藏的“元指令”，可以影响模型如何解释图像，并引导模型的输出来表达对手选择的风格、情感或观点。我们解释了如何通过生成作为软提示的图像来创建元指令。与越狱攻击和对抗性示例不同，这些图像产生的输出是合理的，并且基于图像的视觉内容，但是遵循对手的（元）指令。我们描述了这些攻击的风险，包括错误信息和宣传，评估了它们对多个视觉语言模型和对抗元目标的有效性，并展示了它们如何“解锁”底层语言模型的功能，这些功能通过明确的文本指令是无法实现的。最后，我们讨论了对抗这些攻击的防御措施。
图表
解决问题

论文旨在介绍一种新型的间接注入漏洞，通过生成图像作为软提示以影响语言模型的输出，从而表达对手选择的风格、情感或观点。
关键思路

通过生成图像作为软提示，生成隐藏的元指令，以影响语言模型的输出，从而表达对手选择的风格、情感或观点。
其它亮点

论文介绍了如何创建元指令，并评估了它们在多个视觉语言模型和对手元目标上的有效性。实验结果表明，这种攻击可以“解锁”底层语言模型的能力，而这些能力通过明确的文本指令是无法实现的。
相关研究

最近在这个领域中，还有一些相关的研究，例如“Jailbreak Attacks and Adversarial Examples on Recurrent Neural Networks”和“Adversarial Examples for Semantic Image Segmentation”。

Soft Prompts Go Hard: Steering Visual Language Models with Hidden Meta-Instructions

评论