Red-teaming a network of agents: Understanding what breaks when AI agents interact at scale

随着大语言模型和硬件发展，跨用户、跨组织的智能体（agents）正频繁交互，形成互联网络。此类交互引发新型风险：单个恶意消息可在代理间级联传播，逐层窃取私有数据，并裹挟无关代理参与攻击链。此类风险在单体测试中无法暴露，仅在多代理协同场景下显现。初步实验显示部分网络呈现一定抗攻击性，但系统性防御机制仍属空白，亟待研究突破。这一趋势标志着智能体从孤立运行迈向共享、开放环境，能力提升的同时也带来前所未有的安全挑战。（200字）

本专栏通过快照技术转载，仅保留核心内容