背景:
传统的漏洞检测技术,例如:基于静态分析方法的漏洞检测通常会导致高假阳性,动态分析存在高假阴性。到目前为止,这些工具仍然不可靠,给开发人员留下了巨大的开销。
基于深度学习模型的漏洞检测技术,获得了很好的结果,几篇state-of-the-art可以获得95%及以上的准确率。
难点:
深度学习模型通常DL模型的通用性通常受到数据集中隐式偏差的限制,通常在数据集生成/管理/标记过程中引入。
基于token(忽略了语义)和基于graph模型(类别区分性)的编码不充分性。
学习与漏洞无关的无关特征,它们很可能是数据集的人工因素而生成。
数据集中大量的数据重复造成准确率虚高。
不同类别数据不平衡。
动机
为什么这类基于深度学习的模型性能这么好?他们学习到的特征是什么?
最先进的基于DL的技术在现实世界场景下表现如何?
创新点
探究了当下高性能模型在现实场景下的漏洞检测性能。
基于现有的基于DL漏洞检测技术,分析了5个影响该性能的问题。
基于现实场景下的项目,构建了一个数据集。
给出了一个漏洞检测路线图(roadmap)。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢