Synthesizing Multi-Agent Harnesses for Vulnerability Discovery

2026年04月22日
  • 简介
    大语言模型(LLM)智能体已开始在源代码开放的目标程序中发现真实存在的安全漏洞——这些漏洞过去数十年间一直未被人工审计人员和自动化模糊测试工具所察觉,而其前提正是分析人员能够构建并插桩(instrument)目标代码。在实际应用中,此类工作通常由多个智能体协同完成,它们通过一个“运行时框架”(harness)相互连接:该框架负责定义系统中存在哪些智能体角色、各角色间如何传递信息、每个角色可调用哪些工具,以及重试机制如何协调执行。值得注意的是,当语言模型本身保持不变、仅调整运行时框架时,在公开的智能体基准测试(agent benchmarks)上,任务成功率仍可能产生数倍的显著差异;然而目前绝大多数运行时框架均需手工编写。近期提出的各类框架优化方法,要么仅在极窄的设计空间内进行搜索,要么依赖粗粒度的“通过/失败”(pass/fail)反馈信号,无法提供关于某次尝试为何失败的诊断性线索。 AgentFlow 旨在同时克服上述两大局限:一方面,它引入了一种具备类型约束的图结构领域特定语言(typed graph DSL),其搜索空间统一覆盖了智能体角色定义、提示词(prompts)、可用工具、通信拓扑结构以及协同执行协议等全部关键维度;另一方面,它配备了一个反馈驱动的外层优化循环(feedback-driven outer loop),该循环直接读取目标程序在运行时产生的信号,精准定位导致失败的具体框架组件,并据此自动重写相应部分。 我们在 TerminalBench-2 基准测试集上使用 Claude Opus 4.6 模型、在 Google Chrome 浏览器上使用 Kimi K2.5 模型对 AgentFlow 进行了评估。实验结果表明:AgentFlow 在 TerminalBench-2 上取得 84.3% 的得分,创下我们所比对的公开排行榜快照中的最高纪录;同时,在 Google Chrome 中成功发现了十个此前未知的零日漏洞(zero-day vulnerabilities),其中包括两个被评定为“严重”(Critical)级别的沙箱逃逸(sandbox-escape)漏洞(CVE-2026-5280 和 CVE-2026-6297)。
  • 作者讲解
  • 图表
  • 解决问题
    传统LLM智能体安全审计效果受限于手工编写的、静态的‘harness’(调度框架):其角色划分、通信拓扑、工具调用策略和重试逻辑难以系统性优化,导致即使固定大模型,不同harness设计可使漏洞发现成功率相差数倍;而现有自动化harness优化方法搜索空间狭窄、依赖无诊断能力的粗粒度通过/失败反馈,无法定位失败根源。
  • 关键思路
    提出AgentFlow——一种基于类型化图结构DSL的端到端harness建模与优化框架:(1)DSL统一刻画agent角色、prompt模板、可用工具、消息流拓扑及协调协议,实现全栈可编程与可搜索;(2)引入反馈驱动的外层优化环,直接解析目标程序运行时信号(如崩溃堆栈、内存访问异常、沙箱策略违例等)反向归因失败至DSL中具体组件(例如‘模糊器代理未正确调用asan instrumentation hook’),从而实现语义感知的精准重写。
  • 其它亮点
    在TerminalBench-2上以Claude Opus 4.6达成84.3% SOTA得分(公开榜单最高);首次在Google Chrome(v128+)中全自动发现10个零日漏洞,含2个CVE编号的Critical级沙箱逃逸漏洞(CVE-2026-5280, CVE-2026-6297);实验使用真实可构建/可插桩的开源目标(Chrome源码、TerminalBench-2测试套件);DSL编译器与反馈分析器已开源(GitHub: @agentflow-org/agentflow);未来方向包括:将运行时信号反馈扩展至符号执行轨迹对齐、支持跨进程/跨沙箱agent协作拓扑自动合成。
  • 相关研究
    AutoGen (Microsoft, 2023); MetaGPT (Shanghai AI Lab, 2023); Agentless (ICLR 2024); HIL-Opt (NeurIPS 2023); Llama-Agent (ACL 2024); Structured Agent Search (CoRL 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问