How Far Have We Gone in Vulnerability Detection Using Large Language Models

简介

随着软件变得越来越复杂且容易出现漏洞，自动化漏洞检测变得至关重要，但挑战重重。鉴于大型语言模型（LLM）在各种任务中取得的显著成功，人们越来越期待它们在漏洞检测方面的功效。然而，我们仍然缺乏对它们在漏洞检测中潜力的量化理解。为了弥补这一差距，我们介绍了一个全面的漏洞基准 VulBench。该基准汇集了来自各种CTF（夺旗赛）挑战和现实应用的高质量数据，并为每个易受攻击的函数提供注释，详细说明漏洞类型及其根本原因。通过我们的实验，涵盖了16个LLM和6个最先进的基于深度学习的模型和静态分析器，我们发现几个LLM在漏洞检测方面优于传统的深度学习方法，揭示了LLM中未被挖掘的潜力。这项工作有助于理解和利用LLM来增强软件安全性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在研究大型语言模型在漏洞检测方面的潜力，通过引入一个全面的漏洞基准测试VulBench来量化其潜力。
关键思路

论文的关键思路是使用大型语言模型来进行漏洞检测，并通过引入一个全面的漏洞基准测试VulBench来评估它们的性能。
其它亮点

论文使用了16个大型语言模型和6个最先进的深度学习模型和静态分析器进行实验，发现一些大型语言模型在漏洞检测方面表现优异。论文还提出了一个全面的漏洞基准测试VulBench，并公开了数据集和代码。
相关研究

最近在这个领域中，还有一些相关的研究，例如：《DeepVulDetector: A Highly Accurate and Scalable Approach for Vulnerability Detection Based on Deep Learning》、《VulDeePecker: A Deep Learning-Based System for Vulnerability Detection》等。

How Far Have We Gone in Vulnerability Detection Using Large Language Models

提问交流

提问交流