Software Vulnerability Prediction in Low-Resource Languages: An Empirical Study of CodeBERT and ChatGPT

2024年04月26日
  • 简介
    背景:在新兴语言中进行软件漏洞(SV)预测越来越重要,以确保现代系统的软件安全。然而,这些语言通常具有有限的SV数据,难以开发高性能的预测模型。目的:我们进行了一项实证研究,评估了新兴语言中SV数据稀缺对最先进的SV预测模型的影响,并探讨了提高性能的潜在解决方案。方法:我们使用函数级和行级SV预测,在三种低资源语言(Kotlin,Swift和Rust)中使用CodeBERT作为最先进模型进行训练和测试,并采用数据采样技术。我们还评估了ChatGPT在低资源SV预测方面的有效性,考虑到它在其他领域的最近成功。结果:与具有大量数据的C/C++中的原始工作相比,CodeBERT在低资源语言中的函数级和行级SV预测性能显著下降,表明数据稀缺的负面影响。关于纠正措施,数据采样技术无法改善CodeBERT;而ChatGPT展示了有希望的结果,将预测性能显着提高了34.4%至函数级别,以及53.5%至行级别。结论:我们已经突出了挑战,并迈出了低资源SV预测的第一步,为未来的研究铺平了道路。
  • 图表
  • 解决问题
    解决问题的是在新兴语言中软件漏洞预测的数据稀缺问题,探究提高预测性能的潜在解决方案。
  • 关键思路
    使用ChatGPT模型对低资源语言中的软件漏洞进行预测,相较于数据采样技术,表现出更好的预测性能。
  • 其它亮点
    论文在三种低资源语言(Kotlin,Swift和Rust)上对CodeBERT模型进行了测试,发现数据稀缺对预测性能有负面影响。与数据采样技术相比,ChatGPT模型表现出更好的预测性能,提高了34.4%至53.5%。
  • 相关研究
    近期的相关研究包括《CodeBERT: A Pre-Trained Model for Programming and Natural Language Processing》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论