AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents

2024年06月19日
  • 简介
    AI代理人旨在通过将基于文本的推理与外部工具调用相结合来解决复杂任务。不幸的是,AI代理人容易受到提示注入攻击的影响,其中由外部工具返回的数据劫持代理人执行恶意任务。为了衡量AI代理人的对抗鲁棒性,我们引入了AgentDojo,这是一个用于在不受信任的数据上执行工具的代理人评估框架。为了捕捉攻击和防御的不断变化,AgentDojo不是静态测试套件,而是一个可扩展的环境,用于设计和评估新的代理人任务、防御和自适应攻击。我们使用97个现实任务(例如管理电子邮件客户端、浏览电子银行网站或进行旅行预订)、629个安全测试用例以及来自文献的各种攻击和防御范式来填充环境。我们发现AgentDojo对于攻击和防御都是一个挑战:最先进的LLMs在许多任务中失败(即使没有攻击),而现有的提示注入攻击会破坏一些安全属性但不是全部。我们希望AgentDojo能够促进关于解决常见任务的AI代理人的新设计原则的研究,并在https://github.com/ethz-spylab/agentdojo上发布AgentDojo的代码。
  • 图表
  • 解决问题
    评估AI代理的鲁棒性,以抵御来自外部工具的攻击
  • 关键思路
    引入AgentDojo框架,用于设计和评估新的代理任务、防御和自适应攻击,该框架包含97个现实任务、629个安全测试用例和各种攻击和防御范例
  • 其它亮点
    AgentDojo是一个可扩展的环境,以捕捉攻击和防御的不断演变,LLMs在许多任务中失败,现有的提示注入攻击可以破坏一些安全属性但不是全部,研究人员已经在https://github.com/ethz-spylab/agentdojo上发布了AgentDojo的代码
  • 相关研究
    最近的相关研究包括对抗攻击和防御的方法,以及评估深度学习模型的鲁棒性的技术
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论