Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing

2025年12月10日
  • 简介
    我们首次在真实的企业环境中,对人工智能代理与人类网络安全专业人员进行了全面对比评估。我们在一个包含约8000台主机、横跨12个子网的大型大学网络中,对十名网络安全专业人员、六个现有AI代理以及我们新开发的代理框架ARTEMIS进行了测试。ARTEMIS是一个多代理系统,具备动态提示生成、可任意扩展子代理和自动漏洞分级功能。在本次对比研究中,ARTEMIS总体排名第二,共发现9个有效漏洞,有效提交率达到82%,表现优于10名人类参与者中的9位。尽管现有的Codex和CyAgent等代理框架的表现不及大多数人类参与者,但ARTEMIS展现出与最强人类参与者相当的技术深度和报告质量。我们观察到,AI代理在系统性枚举、并行化漏洞利用以及成本控制方面具有优势——某些ARTEMIS变体的运行成本仅为每小时18美元,而专业渗透测试人员的成本则为每小时60美元。同时,我们也发现了AI代理的关键能力短板:其误报率较高,在涉及图形用户界面(GUI)的任务中表现不佳。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决AI代理在真实企业网络环境中能否达到或超越人类网络安全专业人员的漏洞发现能力的问题。这是一个相对较新的问题,尤其是在实际生产级网络中对AI代理与人类进行直接、系统的对比评估方面,此前缺乏充分研究。
  • 关键思路
    提出ARTEMIS——一种多智能体框架,具备动态提示生成、可扩展子代理和自动漏洞分级能力。其关键创新在于将任务分解为多个专业化子代理协作流程,并通过动态提示机制提升适应性和技术深度,从而在复杂网络环境中实现高效、低成本的渗透测试。相比现有AI代理(如Codex、CyAgent),ARTEMIS在真实性、系统性和有效性上实现了显著提升。
  • 其它亮点
    研究在包含约8,000台主机、12个子网的真实大学网络中展开,评估了10名人类安全专家与6种现有AI代理及ARTEMIS的表现。ARTEMIS发现了9个有效漏洞,有效提交率达82%,表现优于9名人类参与者,仅次于最强人类专家。实验设计严谨,采用真实环境而非模拟数据集。ARTEMIS变体成本低至18美元/小时,远低于人类60美元/小时。但AI仍存在误报率高、难以处理GUI任务等短板。论文未提及代码是否开源。值得深入的方向包括降低误报率、增强图形界面交互能力、以及多代理协作机制的泛化应用。
  • 相关研究
    1. Codex: A General-Purpose AI for Automating Software Development Tasks 2. CyAgent: An Autonomous Agent Framework for Cybersecurity Operations 3. AUTOPENTEST: Automated Penetration Testing Using Reinforcement Learning 4. Multi-Agent Systems for Network Security: Challenges and Opportunities 5. Evaluating Large Language Models in Red Teaming Scenarios
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问