- 简介大型语言模型(LLMs)已经展示了在许多下游任务中的显著潜力,包括需要人类级智能的任务,如漏洞检测。然而,最近使用LLMs进行漏洞检测的尝试仍然是初步的,因为它们缺乏对主题LLM的漏洞推理能力的深入理解 - 无论它是来自模型本身还是来自外部协助,例如调用工具支持和检索漏洞知识。在本文中,我们旨在将LLMs的漏洞推理能力与其其他能力分离开来,包括主动寻求额外信息的能力(例如通过SOTA模型中的函数调用),采用相关漏洞知识的能力(例如通过基于向量的匹配和检索),以及遵循指示以输出结构化结果的能力。为此,我们提出了一个统一的评估框架,名为LLM4Vuln,它将LLMs的漏洞推理与其其他能力分离,并评估了当LLMs的漏洞推理与其他能力的增强相结合时,LLMs的漏洞推理如何得到增强。为展示LLM4Vuln的有效性,我们设计了受控实验,使用了75个经过广泛审核的智能合约漏洞作为基准事实,这些漏洞在2023年8月至11月期间在Code4rena上被评为高风险,并在三个代表性的LLMs(GPT-4,Mixtral和Code Llama)中进行了4,950个不同场景的测试。我们的结果不仅揭示了有关知识增强、上下文补充、提示方案和模型不同影响的十个发现,还使我们能够在两个试点漏洞赏金计划中识别出9个零日漏洞,其中超过1,000美元的奖励被授予。
-
- 图表
- 解决问题评估大型语言模型在漏洞检测方面的能力,以及如何提高其漏洞推理能力。
- 关键思路提出了一种评估框架LLM4Vuln,将LLMs的漏洞推理能力与其其他能力分离评估,并探索如何通过增强其他能力来提高漏洞推理能力。
- 其它亮点使用75个智能合约漏洞进行了控制实验,测试了三种代表性LLMs的4950种不同场景。发现知识增强、上下文补充、提示方案和模型对漏洞推理能力的影响各不相同,并在两个试点漏洞赏金计划中发现了9个零日漏洞。
- 最近的相关研究包括使用LLMs进行漏洞检测的初步尝试,以及使用向量匹配和检索等技术来增强漏洞检测的能力。相关论文包括“Towards Deep Learning Models Resistant to Adversarial Attacks”和“Deep Learning-Based Vulnerability Detection: A Comprehensive Survey”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流