Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

2024年08月15日
  • 简介
    本文介绍了一个名为Cybench的框架,用于指定网络安全任务并评估代理程序在这些任务上的表现。这些任务包括40个专业级别的夺旗赛任务,这些任务来自4个不同的竞赛,涵盖了各种难度,每个任务都有自己的描述、起始文件,并在一个代理程序可以执行bash命令和观察输出的环境中初始化。为了更加细致地评估代理程序的性能,研究人员引入了子任务,将任务分解成中间步骤。在没有指导的情况下,研究发现代理程序只能解决最简单的完整任务,而且这些任务人类团队需要花费长达11分钟才能完成,其中Claude 3.5 Sonnet和GPT-4o的成功率最高。最后,子任务相比于未指导运行提供了更多的信号来衡量性能,模型在有子任务指导的完整任务上的成功率比没有子任务指导的任务高3.2\%。所有代码和数据都公开可用于https://cybench.github.io。
  • 图表
  • 解决问题
    评估自主识别漏洞和执行攻击的AI助手在网络安全中的作用
  • 关键思路
    引入Cybench框架,用于指定网络安全任务和评估AI助手的表现,包括40个专业级别的CTF任务和17个子任务,评估了7个模型的表现,发现在没有指导的情况下,模型只能解决最简单的任务,而子任务可以提供更多的性能评估信号
  • 其它亮点
    使用了40个专业级别的CTF任务和17个子任务,提供了公开可用的代码和数据集,发现子任务可以提供更多的性能评估信号,值得进一步研究
  • 相关研究
    最近的相关研究包括使用深度学习模型进行漏洞检测和利用的研究,如《使用深度学习自动化漏洞检测和利用》
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论