eyeballvul: a future-proof benchmark for vulnerability detection in the wild

2024年07月11日
  • 简介
    最近的LLM长文本使得寻找代码库中的安全漏洞成为了新的用例。为了评估模型在这项任务上的表现,我们引入了eyeballvul:一个基准测试,旨在测试语言模型在大规模上检测漏洞的能力,它每周从开源代码库中发布的漏洞流中收集并更新。该基准测试由不同代码库中的修订列表组成,每个修订都与该修订中已知的漏洞列表相关联。使用基于LLM的评分器将模型返回的可能漏洞列表与每个修订的已知漏洞列表进行比较。截至2024年7月,eyeballvul包含来自5000多个代码库、6000多个修订的24000多个漏洞,大小约为55GB。
  • 图表
  • 解决问题
    评估语言模型在发现代码库中的安全漏洞方面的性能。
  • 关键思路
    使用长上下文的LLM对整个代码库进行漏洞检测,建立了一个基准测试集eyeballvul,其源自开源代码库中发布的漏洞信息,并使用LLM评分器来比较模型返回的潜在漏洞列表和每个修订版本中已知漏洞列表。
  • 其它亮点
    eyeballvul基准测试集包含超过24,000个漏洞,涵盖了6,000多个修订版本和5,000多个代码库,并且每周都会更新。实验结果表明,使用LLM进行漏洞检测的性能优于传统的基于规则的方法。
  • 相关研究
    最近的相关研究包括使用机器学习方法进行漏洞检测的研究,如基于深度学习的漏洞检测方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论