Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets

10.1109/TSE.2024.3423712
2024年07月03日
  • 简介
    软件漏洞对日常软件系统的影响是显著的。尽管已经提出了用于漏洞检测的深度学习模型,但它们的可靠性存在疑问。先前的评估显示,召回率/F1得分高达99%,但这些模型在实际情况下表现不佳,特别是在评估整个代码库而不仅仅是修复提交时。本文介绍了Real-Vul,这是一个全面的数据集,代表了用于评估漏洞检测模型的真实世界场景。评估DeepWukong、LineVul、ReVeal和IVDetect表明,性能显著下降,精度下降高达95个百分点,F1得分下降高达91个百分点。此外,模型性能根据漏洞特征波动,信息泄露或代码注入的F1得分比路径解析或可预测返回值的得分更好。结果突出了一个重要的性能差距,在部署基于深度学习的漏洞检测模型之前需要解决。过度拟合被确定为一个关键问题,并提出了一种增强技术,可能将性能提高多达30%。贡献包括更好的模型评估数据集创建方法,Real-Vul数据集以及深度学习模型在实际环境中遇到困难的实证证据。
  • 图表
  • 解决问题
    评估深度学习模型在实际代码中检测漏洞的可靠性,探讨其性能差距的原因和解决方案。
  • 关键思路
    提出Real-Vul数据集,用于更好地评估模型的性能。通过评估多个深度学习模型在该数据集上的表现,发现模型在实际代码中的性能明显下降,且存在过拟合问题。提出数据增强技术以提高模型性能。
  • 其它亮点
    实验使用Real-Vul数据集,展示了深度学习模型在实际代码中检测漏洞的性能差距。提出数据增强技术以提高模型性能。
  • 相关研究
    相关研究包括使用深度学习模型检测漏洞的先前工作,以及其他数据增强技术的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论