A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends

简介

近年来，随着大型模型的显著发展，大型视觉语言模型（LVLMs）已经在广泛的多模态理解和推理任务中展现出了卓越的能力。与传统的大型语言模型（LLMs）相比，LVLMs由于更接近多资源实际应用和多模态处理的复杂性，具有巨大的潜力和挑战。然而，LVLMs的漏洞相对未被充分探索，可能存在日常使用中的潜在安全风险。本文全面回顾了现有LVLM攻击的各种形式。具体而言，我们首先介绍了针对LVLMs的攻击背景，包括攻击初步、攻击挑战和攻击资源。然后，我们系统地回顾了LVLM攻击方法的发展，例如对操纵模型输出的对抗攻击、利用模型漏洞进行未经授权操作的越狱攻击、工程化提示类型和模式的提示注入攻击以及影响模型训练的数据污染。最后，我们讨论了未来有前途的研究方向。我们相信，我们的调查提供了LVLM漏洞的当前情况的洞察，鼓励更多的研究人员探索和减轻LVLM发展中的潜在安全问题。LVLM攻击的最新论文将持续收集在https://github.com/liudaizong/Awesome-LVLM-Attack中。
图表
解决问题

LVLM的安全漏洞问题相对较少被探索，本文旨在全面回顾现有的LVLM攻击形式，以便更多的研究人员探索和缓解LVLM的潜在安全问题。
关键思路

本文系统地回顾了LVLM攻击方法的发展，包括对模型输出进行操纵的对抗性攻击、利用模型漏洞进行未授权操作的越狱攻击、工程化提示类型和模式的提示注入攻击以及影响模型训练的数据污染攻击。
其它亮点

本文介绍了LVLM攻击的背景、挑战和资源，并提供了一个收集LVLM攻击论文的GitHub链接。实验使用的数据集和开源代码也有所提及。未来的研究方向也被讨论。
相关研究

与LVLM攻击相关的最新研究可以在https://github.com/liudaizong/Awesome-LVLM-Attack上找到。

A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends

评论