using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs
Eugene Bagdasaryan, Tsung-Yin Hsieh, Ben Nassi, Vitaly Shmatikov
[Cornell Tech]
用图像和声音对多模态LLM进行间接指令注入
-
动机:当前的多模态大型语言模型存在潜在的安全风险,攻击者可以将敌对扰动与图像或音频融合,从而诱导模型输出攻击者选择的文本或遵循攻击者的指令。 -
方法:开发了两种类型的注入攻击的概念证明,分别是目标输出攻击和对话毒化攻击。目标输出攻击使得模型在用户询问输入描述时返回攻击者选择的任何字符串;对话毒化攻击是一种自注入攻击,利用了基于LLM的聊天机器人保持对话环境的特性。 -
优势:这些攻击手段的证明不仅揭示了潜在的安全风险,也为进一步的防护研究和开发提供了实证基础。
展示了如何通过图像和音频间接注入指令至多模态大型语言模型,揭示了这种攻击的可能性,以及对于更复杂模型使用更复杂指令的预期。
论文:https://arxiv.org/abs/2307.10490
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢