InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents

2024年03月05日
  • 简介
    最近的研究将LLMs作为代理体现出来,使它们能够访问工具,执行操作,并与外部内容(如电子邮件或网站)进行交互。然而,外部内容引入了间接提示注入(IPI)攻击的风险,其中恶意指令嵌入到LLMs处理的内容中,旨在操纵这些代理执行有害行动。鉴于这种攻击可能带来的严重后果,建立基准来评估和减轻这些风险是必要的。在这项工作中,我们介绍了InjecAgent,这是一个旨在评估工具集成LLM代理对IPI攻击的脆弱性的基准。InjecAgent包括1054个测试用例,涵盖17种不同的用户工具和62种攻击者工具。我们将攻击意图分为两种主要类型:对用户的直接伤害和私人数据的窃取。我们评估了30种不同的LLM代理,并表明代理容易受到IPI攻击,其中ReAct-prompted GPT-4容易受到攻击24%的时间。进一步研究增强设置,其中攻击者指令加强了黑客提示,显示攻击成功率的进一步增加,几乎将ReAct-prompted GPT-4的攻击成功率翻倍。我们的发现引发了关于广泛部署LLM代理的问题。我们的基准可在https://github.com/uiuc-kang-lab/InjecAgent上获得。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决工具集成的LLM代理程序面临的间接提示注入攻击(IPI)的风险,并建立基准来评估和减轻这些风险。
  • 关键思路
    本文提出了InjecAgent基准来评估工具集成的LLM代理程序对IPI攻击的脆弱性。该基准包括1054个测试用例,涵盖17种不同的用户工具和62种攻击工具。
  • 其它亮点
    本文评估了30种不同的LLM代理程序,并表明代理程序容易受到IPI攻击,其中ReAct-prompted GPT-4的攻击成功率高达24%。此外,作者还进行了增强设置的研究,结果显示攻击成功率进一步提高,ReAct-prompted GPT-4的攻击成功率几乎翻倍。作者的发现引发了对LLM代理程序广泛部署的问题。该基准已在GitHub上公开。
  • 相关研究
    近期的相关研究包括:1.《基于深度学习的间接提示注入攻击检测方法》;2.《使用深度学习模型检测间接提示注入攻击》;3.《自然语言处理中的安全和隐私问题综述》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问