- 简介背景:在新兴语言中进行软件漏洞(SV)预测越来越重要,以确保现代系统的软件安全。然而,这些语言通常具有有限的SV数据,难以开发高性能的预测模型。目的:我们进行了一项实证研究,评估了新兴语言中SV数据稀缺对最先进的SV预测模型的影响,并探讨了提高性能的潜在解决方案。方法:我们使用函数级和行级SV预测,在三种低资源语言(Kotlin,Swift和Rust)中使用CodeBERT作为最先进模型进行训练和测试,并采用数据采样技术。我们还评估了ChatGPT在低资源SV预测方面的有效性,考虑到它在其他领域的最近成功。结果:与具有大量数据的C/C++中的原始工作相比,CodeBERT在低资源语言中的函数级和行级SV预测性能显著下降,表明数据稀缺的负面影响。关于纠正措施,数据采样技术无法改善CodeBERT;而ChatGPT展示了有希望的结果,将预测性能显着提高了34.4%至函数级别,以及53.5%至行级别。结论:我们已经突出了挑战,并迈出了低资源SV预测的第一步,为未来的研究铺平了道路。
- 图表
- 解决问题解决问题的是在新兴语言中软件漏洞预测的数据稀缺问题,探究提高预测性能的潜在解决方案。
- 关键思路使用ChatGPT模型对低资源语言中的软件漏洞进行预测,相较于数据采样技术,表现出更好的预测性能。
- 其它亮点论文在三种低资源语言(Kotlin,Swift和Rust)上对CodeBERT模型进行了测试,发现数据稀缺对预测性能有负面影响。与数据采样技术相比,ChatGPT模型表现出更好的预测性能,提高了34.4%至53.5%。
- 近期的相关研究包括《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》等。
沙发等你来抢
去评论
评论
沙发等你来抢