Software Vulnerability Prediction in Low-Resource Languages: An Empirical Study of CodeBERT and ChatGPT

简介

背景：在新兴语言中进行软件漏洞（SV）预测越来越重要，以确保现代系统的软件安全。然而，这些语言通常具有有限的SV数据，难以开发高性能的预测模型。目的：我们进行了一项实证研究，评估了新兴语言中SV数据稀缺对最先进的SV预测模型的影响，并探讨了提高性能的潜在解决方案。方法：我们使用函数级和行级SV预测，在三种低资源语言（Kotlin，Swift和Rust）中使用CodeBERT作为最先进模型进行训练和测试，并采用数据采样技术。我们还评估了ChatGPT在低资源SV预测方面的有效性，考虑到它在其他领域的最近成功。结果：与具有大量数据的C/C++中的原始工作相比，CodeBERT在低资源语言中的函数级和行级SV预测性能显著下降，表明数据稀缺的负面影响。关于纠正措施，数据采样技术无法改善CodeBERT；而ChatGPT展示了有希望的结果，将预测性能显着提高了34.4％至函数级别，以及53.5％至行级别。结论：我们已经突出了挑战，并迈出了低资源SV预测的第一步，为未来的研究铺平了道路。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题的是在新兴语言中软件漏洞预测的数据稀缺问题，探究提高预测性能的潜在解决方案。
关键思路

使用ChatGPT模型对低资源语言中的软件漏洞进行预测，相较于数据采样技术，表现出更好的预测性能。
其它亮点

论文在三种低资源语言（Kotlin，Swift和Rust）上对CodeBERT模型进行了测试，发现数据稀缺对预测性能有负面影响。与数据采样技术相比，ChatGPT模型表现出更好的预测性能，提高了34.4%至53.5%。
相关研究

近期的相关研究包括《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》等。

Software Vulnerability Prediction in Low-Resource Languages: An Empirical Study of CodeBERT and ChatGPT

提问交流

提问交流