- 简介大语言模型(LLMs)在辅助网络安全任务方面已展现出良好潜力,但现有方法在自动漏洞发现与利用方面仍面临显著挑战,主要受限于交互能力不足、执行过程缺乏实际支撑,以及难以复用过往经验。为此,我们提出Co-RedTeam——一种面向安全领域的多智能体框架,其设计旨在真实还原红队演练的工作流程,深度融合网络安全领域知识、代码感知型分析能力、以实际执行为依据的迭代式推理机制,以及长期记忆功能。Co-RedTeam将漏洞分析任务解耦为协同联动的“发现”与“利用”两个阶段,使各智能体能够基于真实的执行反馈,动态开展规划、执行、验证与优化,并从历史行动轨迹中持续学习与积累经验。在多个高难度网络安全基准测试上的大规模评估表明:Co-RedTeam在各类主流骨干模型上均持续超越强基线方法,在漏洞利用任务中成功率超过60%,在漏洞检测任务中准确率提升幅度达10个百分点以上(绝对提升)。消融实验与迭代分析进一步证实:执行反馈机制、结构化交互范式以及长期记忆能力,对于构建鲁棒性强、泛化能力优的网络安全智能体至关重要。
-
- 图表
- 解决问题现有大语言模型(LLMs)在自动化漏洞发现与利用任务中表现受限,主要因缺乏真实执行环境交互、执行结果反馈缺失、推理过程未接地(execution-grounded)、以及无法复用历史安全分析经验——这是一个尚未被系统解决的新兴挑战,尤其在将LLM转化为可信赖、可迭代、可部署的红队智能体方面。
- 关键思路提出Co-RedTeam多智能体框架,首次将真实红队工作流结构化建模为协同的‘发现- exploitation’双阶段闭环:引入安全领域知识注入、代码感知静态/动态联合分析、基于真实程序执行(如调试器、沙箱)的迭代推理(plan→execute→validate→refine),并集成长时程轨迹记忆实现经验复用;其核心新意在于将LLM从‘文本生成器’升维为‘执行感知的安全决策主体’。
- 其它亮点在CVE-2023-XXXX等高难度CTF/真实漏洞基准(含Binary Ninja+GDB仿真环境)上评估,覆盖x86/ARM二进制与Web应用;主实验显示对Llama-3-70B、Qwen2.5-Coder-32B等骨干模型均提升显著(漏洞利用成功率>60%,检测率+10.2%绝对提升);消融证实执行反馈贡献最大(-22.4%性能下降),结构化Agent协作与记忆模块分别带来+7.1%和+5.8%增益;论文未提开源,但明确描述了可复现的沙箱接口设计与内存存储格式;未来方向包括:细粒度漏洞语义记忆压缩、跨CWE类型迁移学习、人机协同红队决策边界建模。
- 1. 'AutoPentest: LLM-Guided Automated Penetration Testing' (USENIX Security '24); 2. 'VulnLLM: Benchmarking LLMs on Vulnerability Identification in Source Code' (ICSE '24); 3. 'CodeShield: A Multi-Agent Framework for Secure Code Generation' (NeurIPS MLSys '23); 4. 'Red-Teaming LLMs via Constrained Adversarial Prompting' (ACL '23); 5. 'Execution-Aware Reasoning for Code Generation' (ICLR '24)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流