- 简介机器学习在网络安全相关软件工程任务中的应用越来越受欢迎。源代码的表示是该技术的关键部分,它能够影响模型学习源代码特征的方式。随着越来越多的这些技术被开发出来,了解该领域的现状以更好地了解存在和不存在的内容是很有价值的。本文对现有的基于机器学习的方法进行了研究,并展示了不同网络安全任务和编程语言所使用的表示类型。此外,我们研究了不同表示所使用的模型类型。我们发现,基于图形的表示是最受欢迎的表示类别,Tokenizer和Abstract Syntax Trees(ASTs)是最受欢迎的两种表示方式。我们还发现,最受欢迎的网络安全任务是漏洞检测,而被最多技术覆盖的语言是C语言。最后,我们发现,基于序列的模型是最受欢迎的模型类别,支持向量机(SVMs)是最受欢迎的模型。
-
- 图表
- 解决问题研究现有的基于机器学习的方法在软件工程中的应用,特别是在网络安全方面的应用,探究不同的表示方法和模型的应用情况。
- 关键思路论文对现有的基于机器学习的方法在软件工程和网络安全中的应用进行了研究,发现基于图形的表示方法最受欢迎,Tokenizers和抽象语法树(AST)是最常用的表示方法。另外,序列模型是最受欢迎的模型类型,支持向量机(SVM)是最常用的模型。
- 其它亮点论文发现漏洞检测是最受欢迎的网络安全任务,C语言是应用最广泛的编程语言。研究还使用了多个数据集,并提供了一些开源代码。
- 最近的相关研究包括:“A Survey of Machine Learning for Big Code and Naturalness”和“Deep API Learning”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流