M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection

简介

本文介绍了多模型协作漏洞检测方法（M2CVD），以解决大型语言模型（LLMs）在代码理解方面的强大能力，但微调成本和语义对齐问题限制了它们的项目特定优化；相反，像CodeBERT这样的代码模型易于微调，但通常很难从复杂的代码语言中学习漏洞语义。M2CVD利用LLMs分析漏洞语义的强大能力，通过改进漏洞语义描述的质量来提高代码模型的检测精度。M2CVD采用一种新颖的协作过程：首先通过代码模型理解项目代码来提高LLMs生成的漏洞语义描述的质量，然后使用这些改进的漏洞语义描述来提高代码模型的检测精度。我们在两个真实数据集上展示了M2CVD的有效性，其中M2CVD显著优于基线。此外，我们证明了M2CVD协作方法可以扩展到其他不同的LLMs和代码模型，以提高它们在漏洞检测任务中的准确性。
图表
解决问题

如何提高代码漏洞检测的准确率？
关键思路

利用多模型协同检测方法，将大型语言模型（LLMs）和代码模型（CodeBERT）结合，提高漏洞检测的准确率。
其它亮点

论文提出的M2CVD方法在两个真实数据集上进行了实验，结果表明其显著优于基线。此外，M2CVD的协同方法可扩展到其他不同的LLMs和代码模型，以提高漏洞检测任务的准确性。
相关研究

与本文相关的研究包括CodeBERT、GPT等大型语言模型在代码理解方面的应用，以及各种代码漏洞检测方法的研究。

M2CVD: Enhancing Vulnerability Semantic through Multi-Model Collaboration for Code Vulnerability Detection

评论