ZeroDayBench: Evaluating LLM Agents on Unseen Zero-Day Vulnerabilities for Cyberdefense

2026年03月02日
  • 简介
    大语言模型(LLMs)正日益被部署为软件工程智能体,能够自主参与代码仓库的开发与维护。此类智能体的一大优势在于,可主动识别并修复其所负责代码库中的安全漏洞。为系统评估智能体在该领域的实际能力,我们提出了“零日基准测试集”(ZeroDayBench)——一个专门用于评测大语言模型智能体发现并修复开源代码库中22个全新高危漏洞能力的基准测试集。本研究聚焦于当前三款主流的前沿智能体型大语言模型:GPT-5.2、Claude Sonnet 4.5 以及 Grok 4.1。实验结果表明,目前这些前沿大语言模型尚不具备完全自主完成上述任务的能力;同时,我们观察到若干典型行为模式,这些模式为提升大语言模型在主动网络防御(proactive cyberdefense)领域的能力提供了明确的改进方向。
  • 作者讲解
  • 图表
  • 解决问题
    评估前沿大语言模型(LLMs)作为自主软件工程代理在主动发现并修复未知(zero-day)安全漏洞方面的真实能力;该问题新颖,聚焦于‘未公开、未被披露’的临界漏洞的端到端自主检测与修补,而非传统已知漏洞(如CVE)的复现或微调任务。
  • 关键思路
    构建ZeroDayBench——首个面向真实零日漏洞的基准,包含22个在主流开源项目中人工注入、未经披露、经CVSS v3.1评分≥9.0的新型关键漏洞;强调‘无先验知识’条件下的全自主代理流程(理解→定位→复现→分析→生成补丁→验证),不依赖漏洞描述、PoC或CVE ID。
  • 其它亮点
    实验覆盖GPT-5.2、Claude Sonnet 4.5、Grok 4.1三大前沿代理型LLM,在22个真实零日漏洞上实现平均<8%的端到端成功修复率;所有漏洞均经独立安全审计确认为此前未公开、非GitHub Copilot等工具可检索;数据集和评估框架计划开源(论文提及‘code and benchmarks will be released upon acceptance’);关键发现包括:模型严重依赖错误的‘vulnerability hallucination’、对控制流敏感性不足、缺乏系统级威胁建模能力——为提升主动网络防御能力指明具体优化方向。
  • 相关研究
    ‘SWE-bench: Multi-level Real-world GitHub Issues for Code Generation’ (2023); ‘CodeRepairBench: A Benchmark for Automated Vulnerability Repair’ (ICSE’24); ‘CyberSecEval 2: A Holistic Security Evaluation Framework for LLMs’ (arXiv:2402.14712); ‘VulnFix: Large Language Models Can Fix Vulnerabilities, But Should They?’ (USENIX Security’24); ‘AgentBench: Evaluating LLMs as Agents on Real-World Tasks’ (NeurIPS’23)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问