- 简介近期的技术进步使得由大语言模型(LLM)驱动的AI代理能够通过将语言模型推理能力与工具、记忆和网络访问相结合,自主执行复杂的任务。然而,这些系统在现实环境中,尤其是在遭受攻击时,是否能够遵守部署策略呢?为了进行调查,我们举办了迄今为止规模最大的公开红队竞赛,针对44种现实部署场景中的22个前沿AI代理进行了测试。参赛者提交了180万条提示注入攻击样本,其中有超过6万条成功引发了违反策略的行为,例如未经授权的数据访问、非法金融操作以及不遵守监管规定等。我们利用这些结果构建了“代理红队测试”(Agent Red Teaming,简称ART)基准测试——一个精选的高影响攻击集合,并在19个最先进的模型上对其进行了评估。结果显示,几乎所有代理在10至100次查询内就表现出大多数违规行为,且攻击在不同模型和任务之间具有很高的可迁移性。值得注意的是,我们发现代理的鲁棒性与模型大小、能力或推理时计算资源之间相关性有限,这表明需要采取额外的防御措施来防止恶意攻击。我们的研究揭示了当今AI代理中存在的关键且持续的安全漏洞。通过发布ART基准测试及配套的评估框架,我们旨在支持更严格的安全评估,并推动实现更安全的AI代理部署。
- 图表
- 解决问题这篇论文旨在解决LLM驱动的AI代理在现实部署环境中是否能够遵循政策规范的问题,特别是在面对对抗性攻击时的安全性和鲁棒性。这是一个重要的新问题,因为随着AI代理的自主性和复杂性增加,其在真实世界中的安全性问题变得尤为关键。
- 关键思路论文的核心思路是通过红队测试(red-teaming)的方式,系统性地评估前沿AI代理在现实场景中的政策合规性。通过大规模的对抗性攻击实验,构建了一个高质量的攻击基准(ART基准),并利用该基准对当前最先进的模型进行评估,揭示了现有系统的广泛脆弱性。
- 其它亮点1. 组织了迄今为止最大规模的公开红队竞赛,覆盖22个前沿AI代理和44个现实部署场景。 2. 收集了180万条对抗性攻击提示,其中超过6万条成功引发政策违规行为。 3. 构建了高质量的Agent Red Teaming (ART) 基准,并在19个SOTA模型上进行评估。 4. 发现代理的鲁棒性与模型大小、能力或推理计算量之间几乎没有相关性,表明需要额外的安全防护机制。 5. 实验表明攻击在不同模型和任务之间具有高度可迁移性。 6. 该基准和评估框架已开源,为后续研究提供基础。
- 1. Red Teaming for AI: A Comprehensive Evaluation of Security Risks in Language Model Agents 2. Prompt Injection Attacks on Large Language Models: Understanding and Mitigation 3. Evaluating the Robustness of AI Systems to Adversarial Inputs 4. Security and Trust in Autonomous AI Agents: Challenges and Frameworks 5. The Vulnerability of LLM-based Agents to Jailbreak Attacks
沙发等你来抢
去评论
评论
沙发等你来抢