- 简介本文展示了多模态代理人存在新的安全风险,即使攻击代理人比以前更具挑战性,因为攻击者对环境的访问和了解受到限制。我们使用对抗文本字符串来引导基于梯度的扰动,从而攻击环境中的一个触发图像。我们的Captioner攻击针对白盒Captioner,如果它们被用来将图像转换为标题作为VLM的附加输入,则会攻击它们。我们的CLIP攻击同时攻击一组CLIP模型,可以转移到专有的VLM中。为了评估攻击,我们策划了VisualWebArena-Adv,这是一个基于VisualWebArena的对抗性任务集,用于基于Web的多模态代理人任务。在单个图像的L-infinity范数为$16/256$的情况下,Captioner攻击可以使Captioner增强的GPT-4V代理人以75%的成功率执行对抗性目标。当我们删除Captioner或使用GPT-4V生成自己的标题时,CLIP攻击的成功率分别为21%和43%。对基于其他VLM的代理人进行的实验,如Gemini-1.5、Claude-3和GPT-4o,显示了它们的鲁棒性存在有趣的差异。进一步的分析揭示了几个关键因素对攻击的成功做出了贡献,我们还讨论了对防御的影响。项目页面:https://chenwu.io/attack-agent 代码和数据:https://github.com/ChenWu98/agent-attack。
-
- 图表
- 解决问题本文试图探讨多模态智能代理带来的新安全风险,提出了使用对抗性文本字符串攻击多模态智能代理的方法,并对攻击效果进行评估。
- 关键思路本文提出的攻击方法可以针对使用不同模型的多模态智能代理,通过对抗性文本字符串引导梯度下降对图像进行扰动,使得代理执行对抗目标。
- 其它亮点实验使用了VisualWebArena-Adv数据集,攻击成功率在不同模型和攻击条件下进行了评估。攻击方法可以针对使用不同模型的多模态智能代理。作者还探讨了攻击成功的关键因素,以及对应的防御方法。研究开源代码和数据集。
- 相关研究包括对抗性攻击和防御、多模态智能代理、视觉语言模型等领域的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流