InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents

向作者提问

NEW

简介

最近的研究将LLMs作为代理体现出来，使它们能够访问工具，执行操作，并与外部内容（如电子邮件或网站）进行交互。然而，外部内容引入了间接提示注入（IPI）攻击的风险，其中恶意指令嵌入到LLMs处理的内容中，旨在操纵这些代理执行有害行动。鉴于这种攻击可能带来的严重后果，建立基准来评估和减轻这些风险是必要的。在这项工作中，我们介绍了InjecAgent，这是一个旨在评估工具集成LLM代理对IPI攻击的脆弱性的基准。InjecAgent包括1054个测试用例，涵盖17种不同的用户工具和62种攻击者工具。我们将攻击意图分为两种主要类型：对用户的直接伤害和私人数据的窃取。我们评估了30种不同的LLM代理，并表明代理容易受到IPI攻击，其中ReAct-prompted GPT-4容易受到攻击24％的时间。进一步研究增强设置，其中攻击者指令加强了黑客提示，显示攻击成功率的进一步增加，几乎将ReAct-prompted GPT-4的攻击成功率翻倍。我们的发现引发了关于广泛部署LLM代理的问题。我们的基准可在https://github.com/uiuc-kang-lab/InjecAgent上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决工具集成的LLM代理程序面临的间接提示注入攻击(IPI)的风险，并建立基准来评估和减轻这些风险。
关键思路

本文提出了InjecAgent基准来评估工具集成的LLM代理程序对IPI攻击的脆弱性。该基准包括1054个测试用例，涵盖17种不同的用户工具和62种攻击工具。
其它亮点

本文评估了30种不同的LLM代理程序，并表明代理程序容易受到IPI攻击，其中ReAct-prompted GPT-4的攻击成功率高达24％。此外，作者还进行了增强设置的研究，结果显示攻击成功率进一步提高，ReAct-prompted GPT-4的攻击成功率几乎翻倍。作者的发现引发了对LLM代理程序广泛部署的问题。该基准已在GitHub上公开。
相关研究

近期的相关研究包括：1.《基于深度学习的间接提示注入攻击检测方法》；2.《使用深度学习模型检测间接提示注入攻击》；3.《自然语言处理中的安全和隐私问题综述》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问