- 简介我们探索利用最先进的深度学习、大数据和自然语言处理技术,增强对易受攻击的Web服务器版本的检测能力。我们专注于提高准确性和特异性,超越基于规则的系统。我们通过向4.77百万个域名发送各种模糊和非标准HTTP请求,并捕获HTTP响应状态行来进行实验。我们通过训练BPE分词器和RoBERTa编码器进行无监督的掩码语言建模来表示这些状态行。然后,我们对编码的响应行进行降维和串联,以表示每个域的Web服务器。随后,随机森林和多层感知器(MLP)对这些Web服务器进行分类,并在检测五种最受欢迎的原始Web服务器时分别实现了0.94和0.96的宏F1分数。MLP在分类347种主要类型和次要版本对时实现了加权F1分数为0.55。分析表明,我们的测试用例是Web服务器类型的有意义的鉴别因素。我们的方法展示了一个强大而灵活的替代基于规则的系统的前景。
-
- 图表
- 解决问题论文旨在通过利用深度学习、大数据和自然语言处理等技术,提高检测易受攻击的Web服务器版本的准确性和特异性。
- 关键思路论文提出了一种基于BPE分词器和RoBERTa编码器的无监督掩码语言建模的方法,通过对HTTP响应状态行的编码来表示每个域名的Web服务器,并使用随机森林和多层感知器(MLP)对其进行分类。
- 其它亮点论文在4.77百万个域名上进行了实验,并对五种最流行的起源Web服务器进行了检测,随机森林和MLP分别实现了0.94和0.96的宏F1得分。
- 最近的相关研究包括基于规则的系统和其他基于机器学习的方法,如使用卷积神经网络和支持向量机等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流