Agent Smith: A Single Image Can Jailbreak One Million Multimodal LLM Agents Exponentially Fast

2024年02月13日
  • 简介
    多模态大语言模型(MLLM)代理可以接收指令,捕捉图像,从存储器中检索历史记录并决定使用哪些工具。然而,红队行动揭示了敌对图像/提示可以越狱 MLLM 并导致不对齐的行为。在这项工作中,我们报告了在多代理环境中更严重的安全问题,称为传染性越狱。这意味着对手只需越狱单个代理,而无需进一步干预,(几乎)所有代理将以指数速度被感染并表现出有害行为。为了验证传染性越狱的可行性,我们模拟包含多达一百万个 LLaVA-1.5 代理的多代理环境,并采用随机成对聊天作为多代理交互的概念验证实例。我们的结果表明,将(传染性)敌对图像输入任意随机选择的代理的存储器中就足以实现传染性越狱。最后,我们得出了一个简单的原则,用于确定防御机制是否能够证明抑制传染性越狱的传播,但如何设计符合这个原则的实用防御措施仍然是一个需要研究的开放性问题。我们的项目页面位于 https://sail-sg.github.io/Agent-Smith/。
  • 图表
  • 解决问题
    本文试图解决的问题是多智能体环境下的感染性越狱问题,即一个智能体被攻击后,所有智能体都会受到感染并表现出有害行为。这是否是一个新问题尚不确定。
  • 关键思路
    论文的解决方案是提出了一种简单的方法来感染所有智能体,即向任意一个随机选择的智能体的记忆中注入具有感染性的对抗图像。此外,本文还提出了一个简单的原则来确定一个防御机制是否能够有效地抑制感染性越狱的传播。
  • 其它亮点
    本文的实验使用了多达一百万个LLaVA-1.5智能体的模拟多智能体环境,并采用随机对话作为多智能体交互的实例,证明了感染性越狱的可行性。此外,本文还提供了项目页面和开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括对抗攻击和防御、多智能体系统的安全和隐私问题等方面的研究。例如,论文“Adversarial Attacks and Defenses in Deep Learning”和“Security and Privacy in Multi-Agent Systems: A Research Agenda”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论