LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning

简介

大型语言模型（LLMs）已经展示了在许多下游任务中的显著潜力，包括需要人类级智能的任务，如漏洞检测。然而，最近使用LLMs进行漏洞检测的尝试仍然是初步的，因为它们缺乏对主题LLM的漏洞推理能力的深入理解 - 无论它是来自模型本身还是来自外部协助，例如调用工具支持和检索漏洞知识。在本文中，我们旨在将LLMs的漏洞推理能力与其其他能力分离开来，包括主动寻求额外信息的能力（例如通过SOTA模型中的函数调用），采用相关漏洞知识的能力（例如通过基于向量的匹配和检索），以及遵循指示以输出结构化结果的能力。为此，我们提出了一个统一的评估框架，名为LLM4Vuln，它将LLMs的漏洞推理与其其他能力分离，并评估了当LLMs的漏洞推理与其他能力的增强相结合时，LLMs的漏洞推理如何得到增强。为展示LLM4Vuln的有效性，我们设计了受控实验，使用了75个经过广泛审核的智能合约漏洞作为基准事实，这些漏洞在2023年8月至11月期间在Code4rena上被评为高风险，并在三个代表性的LLMs（GPT-4，Mixtral和Code Llama）中进行了4,950个不同场景的测试。我们的结果不仅揭示了有关知识增强、上下文补充、提示方案和模型不同影响的十个发现，还使我们能够在两个试点漏洞赏金计划中识别出9个零日漏洞，其中超过1,000美元的奖励被授予。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估大型语言模型在漏洞检测方面的能力，以及如何提高其漏洞推理能力。
关键思路

提出了一种评估框架LLM4Vuln，将LLMs的漏洞推理能力与其其他能力分离评估，并探索如何通过增强其他能力来提高漏洞推理能力。
其它亮点

使用75个智能合约漏洞进行了控制实验，测试了三种代表性LLMs的4950种不同场景。发现知识增强、上下文补充、提示方案和模型对漏洞推理能力的影响各不相同，并在两个试点漏洞赏金计划中发现了9个零日漏洞。
相关研究

最近的相关研究包括使用LLMs进行漏洞检测的初步尝试，以及使用向量匹配和检索等技术来增强漏洞检测的能力。相关论文包括“Towards Deep Learning Models Resistant to Adversarial Attacks”和“Deep Learning-Based Vulnerability Detection: A Comprehensive Survey”。

LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning

提问交流

提问交流