- 简介大型语言模型(LLMs)的训练语料库包含大量的程序代码,极大地提高了模型对代码的理解和生成能力。然而,针对程序漏洞检测这一更具体的与代码相关的任务,以及评估LLMs在这种更专业的场景下的表现的全面研究仍然缺乏。为了解决漏洞分析中的常见挑战,我们的研究引入了一个新的基准测试——VulDetectBench,专门设计用于评估LLMs的漏洞检测能力。该基准测试通过五个难度逐渐增加的任务全面评估LLM识别、分类和定位漏洞的能力。我们评估了17个模型(包括开源和闭源),发现现有模型在与漏洞识别和分类相关的任务上可以达到超过80%的准确率,但在具体、更详细的漏洞分析任务上仍然表现不佳,准确率不到30%,难以为专业的漏洞挖掘提供有价值的辅助信息。我们的基准测试有效地评估了各种LLM在漏洞检测的不同级别上的能力,为未来在这个关键的代码安全领域的研究和改进奠定了基础。VulDetectBench公开可用于https://github.com/Sweetaroo/VulDetectBench。
- 图表
- 解决问题评估大型语言模型在代码漏洞检测中的表现,特别是在更具体的漏洞分析任务中的表现如何?
- 关键思路引入了一个新的基准测试VulDetectBench,旨在评估大型语言模型在漏洞检测方面的能力,包括识别、分类和定位漏洞,共有五个难度递增的任务。评估了17个模型的表现,发现现有模型在漏洞识别和分类任务上可以达到80%以上的准确率,但在更具体的漏洞分析任务上仅有不到30%的准确率。
- 其它亮点实验使用了一个新的基准测试VulDetectBench,可以评估大型语言模型在漏洞检测方面的表现。论文评估了17个模型的表现,发现现有模型在更具体的漏洞分析任务上仅有不到30%的准确率。这个基准测试可以为未来研究提供基础,并为代码安全领域的改进提供帮助。
- 最近的相关研究包括《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》、《Learning to Represent Programs with Graphs》等。
沙发等你来抢
去评论
评论
沙发等你来抢