Adversarial Attacks on Multimodal Agents

简介

本文展示了多模态代理人存在新的安全风险，即使攻击代理人比以前更具挑战性，因为攻击者对环境的访问和了解受到限制。我们使用对抗文本字符串来引导基于梯度的扰动，从而攻击环境中的一个触发图像。我们的Captioner攻击针对白盒Captioner，如果它们被用来将图像转换为标题作为VLM的附加输入，则会攻击它们。我们的CLIP攻击同时攻击一组CLIP模型，可以转移到专有的VLM中。为了评估攻击，我们策划了VisualWebArena-Adv，这是一个基于VisualWebArena的对抗性任务集，用于基于Web的多模态代理人任务。在单个图像的L-infinity范数为$16/256$的情况下，Captioner攻击可以使Captioner增强的GPT-4V代理人以75%的成功率执行对抗性目标。当我们删除Captioner或使用GPT-4V生成自己的标题时，CLIP攻击的成功率分别为21%和43%。对基于其他VLM的代理人进行的实验，如Gemini-1.5、Claude-3和GPT-4o，显示了它们的鲁棒性存在有趣的差异。进一步的分析揭示了几个关键因素对攻击的成功做出了贡献，我们还讨论了对防御的影响。项目页面：https://chenwu.io/attack-agent 代码和数据：https://github.com/ChenWu98/agent-attack。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图探讨多模态智能代理带来的新安全风险，提出了使用对抗性文本字符串攻击多模态智能代理的方法，并对攻击效果进行评估。
关键思路

本文提出的攻击方法可以针对使用不同模型的多模态智能代理，通过对抗性文本字符串引导梯度下降对图像进行扰动，使得代理执行对抗目标。
其它亮点

实验使用了VisualWebArena-Adv数据集，攻击成功率在不同模型和攻击条件下进行了评估。攻击方法可以针对使用不同模型的多模态智能代理。作者还探讨了攻击成功的关键因素，以及对应的防御方法。研究开源代码和数据集。
相关研究

相关研究包括对抗性攻击和防御、多模态智能代理、视觉语言模型等领域的研究。

Adversarial Attacks on Multimodal Agents

提问交流

提问交流