VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models

2024年06月11日
  • 简介
    大型语言模型(LLMs)的训练语料库包含大量的程序代码,极大地提高了模型对代码的理解和生成能力。然而,关于检测程序漏洞的全面研究,即与代码相关的更具体的任务以及评估LLMs在这种更专业的情况下的表现仍然缺乏。为了解决漏洞分析中的常见挑战,我们的研究引入了一个新的基准,VulDetectBench,专门设计用于评估LLMs的漏洞检测能力。该基准通过五个难度逐渐增加的任务全面评估了LLM识别、分类和定位漏洞的能力。我们评估了17个模型(包括开源和闭源模型)的性能,发现虽然现有模型在与漏洞识别和分类相关的任务上可以达到超过80%的准确率,但它们在特定、更详细的漏洞分析任务上仍然存在不足,准确率不到30%,这使得难以为专业漏洞挖掘提供有价值的辅助信息。我们的基准有效地评估了各种LLMs在漏洞检测的不同水平上的能力,为未来在代码安全这一关键领域的研究和改进奠定了基础。VulDetectBench可以在https://github.com/Sweetaroo/VulDetectBench公开获取。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决程序漏洞检测的问题,通过引入一个新的基准测试VulDetectBench来评估大型语言模型在漏洞检测中的性能。
  • 关键思路
    论文提出了一个新的基准测试VulDetectBench,通过五个不同难度的任务全面评估大型语言模型在漏洞检测中的能力,发现现有模型在漏洞识别和分类方面的准确率可以达到80%以上,但在更具体的漏洞分析任务上准确率不足30%。
  • 其它亮点
    本论文的亮点在于提出了一个新的基准测试VulDetectBench,包含五个不同难度的任务,评估大型语言模型在漏洞检测中的能力。论文使用17个模型进行了实验评估,并发现现有模型在漏洞识别和分类方面的准确率可以达到80%以上,但在更具体的漏洞分析任务上准确率不足30%。VulDetectBench的代码和数据集已经公开。
  • 相关研究
    最近的相关研究主要集中在利用机器学习等方法来进行程序漏洞检测,例如:'A Survey of Machine Learning for Big Code and Naturalness','Machine Learning based Vulnerability Detection: A Systematic Mapping Study'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问