From Prompt Injections to Protocol Exploits: Threats in LLM-Powered AI Agents Workflows

简介

由具备结构化函数调用接口的大语言模型（LLM）驱动的自主AI智能体，已在实时数据检索、复杂计算和多步骤流程编排方面展现出显著的能力扩展。然而，插件、连接器以及智能体间协议的迅速增长已超越了现有的发现机制与安全实践，导致集成系统脆弱，容易受到各种威胁。在本综述中，我们提出了首个面向LLM智能体生态系统的统一、端到端的威胁模型，涵盖从主机到工具以及智能体之间的通信，形式化了攻击者能力与攻击目标，并整理了三十余种攻击技术。具体而言，我们将威胁模型划分为四个领域：输入操控（如提示词注入、长上下文劫持、多模态对抗输入）、模型破坏（如提示词级与参数级后门、组合与加密多后门、投毒策略）、系统与隐私攻击（如推测性侧信道攻击、成员推理攻击、检索内容污染、社会工程模拟），以及协议漏洞（如Model Context Protocol（MCP）、Agent Communication Protocol（ACP）、Agent Network Protocol（ANP）和Agent-to-Agent（A2A）协议中的漏洞）。对于每个类别，我们回顾了代表性场景，评估了其在现实世界中的可行性，并分析了现有防御措施的效果。基于我们的威胁分类体系，我们进一步指出了若干关键的开放性挑战与未来研究方向，例如通过动态信任管理与密码学溯源追踪来保障MCP部署的安全性、设计并加固智能体网络接口（Agentic Web Interfaces），以及在多智能体与联邦环境中实现系统韧性。本研究为构建强大的防御机制及建立稳健的LLM智能体工作流最佳实践提供了全面的参考指南。
图表
解决问题

这篇论文旨在系统性地研究由大语言模型（LLMs）驱动的自主AI代理生态系统中的安全威胁。随着这些系统功能的增强，插件、连接器和代理间协议的爆炸式增长超出了发现机制和安全实践的发展速度，导致集成脆弱且易受攻击。论文试图建立一个统一的端到端威胁模型，并提出针对LLM代理生态系统的全面安全分析。
关键思路

论文提出了首个针对LLM代理生态系统的统一、端到端的威胁模型，并将攻击面划分为四个主要领域：输入操纵、模型妥协、系统与隐私攻击以及协议漏洞。通过正式定义攻击者能力和目标，并列举超过三十种攻击技术，论文为该领域的防御机制设计提供了理论基础和实践指导。
其它亮点

{论文详细分类了四类主要攻击域，并对每类攻击进行了实际场景分析、可行性评估及现有防御手段的回顾。,"强调了未来的研究方向，如通过动态信任管理和加密溯源来保护Model Context Protocol（MCP）部署、设计并加固Agentic Web Interfaces，以及在多代理和联邦环境中实现弹性。",提供了对当前LLM代理生态系统中潜在攻击面的系统性总结，为后续研究和实践提供了重要参考。,虽然未明确提及开源代码或数据集，但其攻击技术目录和威胁分类体系可作为后续实验和基准测试的基础。}
相关研究

{"最近相关的工作包括对大语言模型安全性研究，例如对抗性攻击（Adversarial Attacks）、提示注入（Prompt Injection）及其防御方法。",关于模型后门（Backdoors）和模型中毒（Poisoning）的研究，特别是在联邦学习环境下的模型安全问题。,"代理间通信协议的安全性研究，例如Agent Communication Protocol (ACP) 和 Agent Network Protocol (ANP) 的标准化与攻击面分析。","隐私泄露攻击，如成员推理攻击（Membership Inference Attacks）和模型反演攻击（Model Inversion）在深度学习系统中的应用。",可信AI与可解释AI（XAI）领域的研究也在一定程度上与本论文相关，尤其是在提高LLM代理透明性和可控性方面。}

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论