- 简介本论文提出了一种使用公开数据集量化评估交互式大型语言模型(LLMs)的流程。我们使用 Big-Vul 对 LLMs 进行了广泛的技术评估,涵盖了四种不同的常见软件漏洞任务。该评估基于该数据集评估了 LLMs 的多任务能力。我们发现,现有的最先进方法和预训练语言模型(LMs)通常优于 LLMs 在软件漏洞检测方面。然而,在软件漏洞评估和定位方面,某些 LLMs(例如 CodeLlama 和 WizardCoder)表现出比预训练 LMs 更优异的性能,并且提供更多的上下文信息可以增强 LLMs 的漏洞评估能力。此外,LLMs 具有强大的漏洞描述能力,但它们倾向于产生过多的输出,这显著削弱了它们与预训练 LMs 相比的性能。总体而言,虽然 LLMs 在某些方面表现良好,但它们仍然需要在理解代码漏洞的微妙差异和描述漏洞的能力方面进行改进,以充分发挥它们的潜力。我们的评估流程为了解 LLMs 处理软件漏洞的能力提供了有价值的见解。
-
- 图表
- 解决问题评估交互式大型语言模型在软件漏洞检测中的表现,探索其潜力和局限性。
- 关键思路使用公开数据集对大型语言模型进行技术评估,发现预训练语言模型在软件漏洞检测方面表现优异,但在漏洞评估和定位方面,某些交互式大型语言模型表现更好,提供更多上下文信息可以增强其漏洞评估能力。
- 其它亮点实验使用了Big-Vul数据集,发现交互式大型语言模型在漏洞描述方面表现优异,但过度输出会降低其性能,需要改进其对代码漏洞的细微差别理解能力和漏洞描述能力。该论文提出的评估流程可以为研究者提供有价值的洞见。
- 近期相关研究包括《Evaluating the Fuzzing Potential of Neural Language Models》和《Neural Network-Based Code Smell Detection: A Systematic Mapping Study》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流