- 简介对于网络安全专业人员来说,监测威胁情况以了解实际或潜在攻击是至关重要的。有关网络威胁的信息通常使用自然语言报告进行分发。自然语言处理可以帮助管理这些大量的非结构化信息,但到目前为止,这个主题受到的关注很少。在本文中,我们介绍了一个新的CC-BY-SA许可的网络威胁报告数据集AnnoCTR。报告已由领域专家进行了命名实体、时间表达式和网络安全特定概念的注释,包括隐含提到的技术和策略。实体和概念链接到维基百科和MITRE ATT&CK知识库,后者是最广泛使用的攻击类型分类法。之前链接到MITRE ATT&CK的数据集要么为每个文档提供单个标签,要么在上下文之外注释句子;我们的数据集以更细粒度的方式注释整个文档。在实验研究中,我们使用最先进的神经模型对数据集的注释进行建模。在我们的少样本场景中,我们发现,对于识别文本中明确或隐含提到的MITRE ATT&CK概念,MITRE ATT&CK的概念描述是一种有效的训练数据增强来源。
-
- 图表
- 解决问题本论文旨在解决网络安全领域中的自然语言处理问题,提出了一个新的数据集AnnoCTR,用于帮助管理大量的非结构化信息,包括命名实体、时间表达式和网络安全特定概念的注释,并将这些实体和概念与维基百科和MITRE ATT&CK知识库进行链接。此外,论文还试图验证使用MITRE ATT&CK概念描述作为训练数据增强的有效性。
- 关键思路本论文的关键思路是提出一个新的数据集AnnoCTR,注释网络安全报告中的实体和概念,并将它们与维基百科和MITRE ATT&CK知识库进行链接,以帮助解决网络安全领域中的自然语言处理问题。
- 其它亮点论文注重实验设计,使用了MITRE ATT&CK知识库和维基百科作为数据集,并使用最先进的神经模型对数据进行建模。论文提出的AnnoCTR数据集注释了整个文档,比其他数据集更加细粒度。此外,论文还验证了使用MITRE ATT&CK概念描述作为训练数据增强的有效性。
- 在网络安全领域中,最近的相关研究包括:1.《A Survey of Natural Language Processing Techniques in Cybersecurity》;2.《Using Natural Language Processing Techniques to Identify Security-Relevant Information in Weblogs》;3.《A Survey of Machine Learning Techniques for Cybersecurity》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流