VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models

简介

大型语言模型（LLMs）的训练语料库包含大量的程序代码，极大地提高了模型对代码的理解和生成能力。然而，针对程序漏洞检测这一更具体的与代码相关的任务，以及评估LLMs在这种更专业的场景下的表现的全面研究仍然缺乏。为了解决漏洞分析中的常见挑战，我们的研究引入了一个新的基准测试——VulDetectBench，专门设计用于评估LLMs的漏洞检测能力。该基准测试通过五个难度逐渐增加的任务全面评估LLM识别、分类和定位漏洞的能力。我们评估了17个模型（包括开源和闭源），发现现有模型在与漏洞识别和分类相关的任务上可以达到超过80%的准确率，但在具体、更详细的漏洞分析任务上仍然表现不佳，准确率不到30%，难以为专业的漏洞挖掘提供有价值的辅助信息。我们的基准测试有效地评估了各种LLM在漏洞检测的不同级别上的能力，为未来在这个关键的代码安全领域的研究和改进奠定了基础。VulDetectBench公开可用于https://github.com/Sweetaroo/VulDetectBench。
图表
解决问题

评估大型语言模型在代码漏洞检测中的表现，特别是在更具体的漏洞分析任务中的表现如何？
关键思路

引入了一个新的基准测试VulDetectBench，旨在评估大型语言模型在漏洞检测方面的能力，包括识别、分类和定位漏洞，共有五个难度递增的任务。评估了17个模型的表现，发现现有模型在漏洞识别和分类任务上可以达到80%以上的准确率，但在更具体的漏洞分析任务上仅有不到30%的准确率。
其它亮点

实验使用了一个新的基准测试VulDetectBench，可以评估大型语言模型在漏洞检测方面的表现。论文评估了17个模型的表现，发现现有模型在更具体的漏洞分析任务上仅有不到30%的准确率。这个基准测试可以为未来研究提供基础，并为代码安全领域的改进提供帮助。
相关研究

最近的相关研究包括《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《Learning to Represent Programs with Graphs》等。

VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models

评论