Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents

向作者提问

NEW

简介

大语言模型（LLMs）在辅助网络安全任务方面已展现出良好潜力，但现有方法在自动漏洞发现与利用方面仍面临显著挑战，主要受限于交互能力不足、执行过程缺乏实际支撑，以及难以复用过往经验。为此，我们提出Co-RedTeam——一种面向安全领域的多智能体框架，其设计旨在真实还原红队演练的工作流程，深度融合网络安全领域知识、代码感知型分析能力、以实际执行为依据的迭代式推理机制，以及长期记忆功能。Co-RedTeam将漏洞分析任务解耦为协同联动的“发现”与“利用”两个阶段，使各智能体能够基于真实的执行反馈，动态开展规划、执行、验证与优化，并从历史行动轨迹中持续学习与积累经验。在多个高难度网络安全基准测试上的大规模评估表明：Co-RedTeam在各类主流骨干模型上均持续超越强基线方法，在漏洞利用任务中成功率超过60%，在漏洞检测任务中准确率提升幅度达10个百分点以上（绝对提升）。消融实验与迭代分析进一步证实：执行反馈机制、结构化交互范式以及长期记忆能力，对于构建鲁棒性强、泛化能力优的网络安全智能体至关重要。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有大语言模型（LLMs）在自动化漏洞发现与利用任务中表现受限，主要因缺乏真实执行环境交互、执行结果反馈缺失、推理过程未接地（execution-grounded）、以及无法复用历史安全分析经验——这是一个尚未被系统解决的新兴挑战，尤其在将LLM转化为可信赖、可迭代、可部署的红队智能体方面。
关键思路

提出Co-RedTeam多智能体框架，首次将真实红队工作流结构化建模为协同的‘发现- exploitation’双阶段闭环：引入安全领域知识注入、代码感知静态/动态联合分析、基于真实程序执行（如调试器、沙箱）的迭代推理（plan→execute→validate→refine），并集成长时程轨迹记忆实现经验复用；其核心新意在于将LLM从‘文本生成器’升维为‘执行感知的安全决策主体’。
其它亮点

在CVE-2023-XXXX等高难度CTF/真实漏洞基准（含Binary Ninja+GDB仿真环境）上评估，覆盖x86/ARM二进制与Web应用；主实验显示对Llama-3-70B、Qwen2.5-Coder-32B等骨干模型均提升显著（漏洞利用成功率>60%，检测率+10.2%绝对提升）；消融证实执行反馈贡献最大（-22.4%性能下降），结构化Agent协作与记忆模块分别带来+7.1%和+5.8%增益；论文未提开源，但明确描述了可复现的沙箱接口设计与内存存储格式；未来方向包括：细粒度漏洞语义记忆压缩、跨CWE类型迁移学习、人机协同红队决策边界建模。
相关研究

1. 'AutoPentest: LLM-Guided Automated Penetration Testing' (USENIX Security '24); 2. 'VulnLLM: Benchmarking LLMs on Vulnerability Identification in Source Code' (ICSE '24); 3. 'CodeShield: A Multi-Agent Framework for Secure Code Generation' (NeurIPS MLSys '23); 4. 'Red-Teaming LLMs via Constrained Adversarial Prompting' (ACL '23); 5. 'Execution-Aware Reasoning for Code Generation' (ICLR '24)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问