ZeroDayBench: Evaluating LLM Agents on Unseen Zero-Day Vulnerabilities for Cyberdefense

向作者提问

NEW

简介

大语言模型（LLMs）正日益被部署为软件工程智能体，能够自主参与代码仓库的开发与维护。此类智能体的一大优势在于，可主动识别并修复其所负责代码库中的安全漏洞。为系统评估智能体在该领域的实际能力，我们提出了“零日基准测试集”（ZeroDayBench）——一个专门用于评测大语言模型智能体发现并修复开源代码库中22个全新高危漏洞能力的基准测试集。本研究聚焦于当前三款主流的前沿智能体型大语言模型：GPT-5.2、Claude Sonnet 4.5 以及 Grok 4.1。实验结果表明，目前这些前沿大语言模型尚不具备完全自主完成上述任务的能力；同时，我们观察到若干典型行为模式，这些模式为提升大语言模型在主动网络防御（proactive cyberdefense）领域的能力提供了明确的改进方向。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估前沿大语言模型（LLMs）作为自主软件工程代理在主动发现并修复未知（zero-day）安全漏洞方面的真实能力；该问题新颖，聚焦于‘未公开、未被披露’的临界漏洞的端到端自主检测与修补，而非传统已知漏洞（如CVE）的复现或微调任务。
关键思路

构建ZeroDayBench——首个面向真实零日漏洞的基准，包含22个在主流开源项目中人工注入、未经披露、经CVSS v3.1评分≥9.0的新型关键漏洞；强调‘无先验知识’条件下的全自主代理流程（理解→定位→复现→分析→生成补丁→验证），不依赖漏洞描述、PoC或CVE ID。
其它亮点

实验覆盖GPT-5.2、Claude Sonnet 4.5、Grok 4.1三大前沿代理型LLM，在22个真实零日漏洞上实现平均<8%的端到端成功修复率；所有漏洞均经独立安全审计确认为此前未公开、非GitHub Copilot等工具可检索；数据集和评估框架计划开源（论文提及‘code and benchmarks will be released upon acceptance’）；关键发现包括：模型严重依赖错误的‘vulnerability hallucination’、对控制流敏感性不足、缺乏系统级威胁建模能力——为提升主动网络防御能力指明具体优化方向。
相关研究

‘SWE-bench: Multi-level Real-world GitHub Issues for Code Generation’ (2023); ‘CodeRepairBench: A Benchmark for Automated Vulnerability Repair’ (ICSE’24); ‘CyberSecEval 2: A Holistic Security Evaluation Framework for LLMs’ (arXiv:2402.14712); ‘VulnFix: Large Language Models Can Fix Vulnerabilities, But Should They?’ (USENIX Security’24); ‘AgentBench: Evaluating LLMs as Agents on Real-World Tasks’ (NeurIPS’23)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问