AnnoCTR: A Dataset for Detecting and Linking Entities, Tactics, and Techniques in Cyber Threat Reports

向作者提问

NEW

简介

对于网络安全专业人员来说，监测威胁情况以了解实际或潜在攻击是至关重要的。有关网络威胁的信息通常使用自然语言报告进行分发。自然语言处理可以帮助管理这些大量的非结构化信息，但到目前为止，这个主题受到的关注很少。在本文中，我们介绍了一个新的CC-BY-SA许可的网络威胁报告数据集AnnoCTR。报告已由领域专家进行了命名实体、时间表达式和网络安全特定概念的注释，包括隐含提到的技术和策略。实体和概念链接到维基百科和MITRE ATT&CK知识库，后者是最广泛使用的攻击类型分类法。之前链接到MITRE ATT&CK的数据集要么为每个文档提供单个标签，要么在上下文之外注释句子；我们的数据集以更细粒度的方式注释整个文档。在实验研究中，我们使用最先进的神经模型对数据集的注释进行建模。在我们的少样本场景中，我们发现，对于识别文本中明确或隐含提到的MITRE ATT&CK概念，MITRE ATT&CK的概念描述是一种有效的训练数据增强来源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决网络安全领域中的自然语言处理问题，提出了一个新的数据集AnnoCTR，用于帮助管理大量的非结构化信息，包括命名实体、时间表达式和网络安全特定概念的注释，并将这些实体和概念与维基百科和MITRE ATT＆CK知识库进行链接。此外，论文还试图验证使用MITRE ATT＆CK概念描述作为训练数据增强的有效性。
关键思路

本论文的关键思路是提出一个新的数据集AnnoCTR，注释网络安全报告中的实体和概念，并将它们与维基百科和MITRE ATT＆CK知识库进行链接，以帮助解决网络安全领域中的自然语言处理问题。
其它亮点

论文注重实验设计，使用了MITRE ATT＆CK知识库和维基百科作为数据集，并使用最先进的神经模型对数据进行建模。论文提出的AnnoCTR数据集注释了整个文档，比其他数据集更加细粒度。此外，论文还验证了使用MITRE ATT＆CK概念描述作为训练数据增强的有效性。
相关研究

在网络安全领域中，最近的相关研究包括：1.《A Survey of Natural Language Processing Techniques in Cybersecurity》；2.《Using Natural Language Processing Techniques to Identify Security-Relevant Information in Weblogs》；3.《A Survey of Machine Learning Techniques for Cybersecurity》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问