- 简介指令调整可以增强大型视觉语言模型(LVLMs),但由于其开放性,可能会引发后门攻击,从而增加安全风险。以前的后门研究集中在封闭场景中进行,具有一致的训练和测试指令,忽略了可能影响攻击效果的实际领域差距。本文首次经验性地考察了LVLMs指令调整期间后门攻击的普适性,揭示了大多数后门策略在实际场景中的某些限制。我们在多个LVLMs上定量评估了六种典型的后门攻击对图像字幕基准的普适性,考虑了视觉和文本领域偏移。我们的研究结果表明,攻击的普适性与后门触发器与特定图像/模型的无关性以及触发器模式的优先相关性呈正相关。此外,我们基于上述关键观察修改了现有的后门攻击方法,在跨领域场景的普适性方面取得了显著的改进(攻击成功率增加了86%)。值得注意的是,即使没有访问指令数据集,也可以通过非常低的污染率(0.2%)成功地污染多模式指令集,攻击成功率超过97%。本文强调,即使是简单的传统后门策略也对LVLMs构成严重威胁,需要更多的关注和深入研究。
- 图表
- 解决问题本论文旨在探讨大型视觉语言模型(LVLMs)在指令调整过程中可能存在的后门攻击风险,并考虑实际领域差距对攻击效果的影响。
- 关键思路本文通过实验证明,后门攻击的泛化能力与后门触发器与特定图像/模型的无关性以及触发器模式的相关性正相关,并通过修改现有的后门攻击策略实现了跨领域场景泛化的显著提升。
- 其它亮点论文对六种典型的后门攻击策略在多个LVLMs上进行了定量评估,并考虑了视觉和文本领域的偏移。实验结果表明,即使没有访问指令数据集,也可以使用非常低的污染率(0.2%)成功地毒化多模式指令集,并实现超过97%的攻击成功率。
- 最近的相关研究包括:“Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency”和“Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey”。
沙发等你来抢
去评论
评论
沙发等你来抢