Fingerprinting web servers through Transformer-encoded HTTP response headers

简介

我们探索利用最先进的深度学习、大数据和自然语言处理技术，增强对易受攻击的Web服务器版本的检测能力。我们专注于提高准确性和特异性，超越基于规则的系统。我们通过向4.77百万个域名发送各种模糊和非标准HTTP请求，并捕获HTTP响应状态行来进行实验。我们通过训练BPE分词器和RoBERTa编码器进行无监督的掩码语言建模来表示这些状态行。然后，我们对编码的响应行进行降维和串联，以表示每个域的Web服务器。随后，随机森林和多层感知器（MLP）对这些Web服务器进行分类，并在检测五种最受欢迎的原始Web服务器时分别实现了0.94和0.96的宏F1分数。MLP在分类347种主要类型和次要版本对时实现了加权F1分数为0.55。分析表明，我们的测试用例是Web服务器类型的有意义的鉴别因素。我们的方法展示了一个强大而灵活的替代基于规则的系统的前景。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过利用深度学习、大数据和自然语言处理等技术，提高检测易受攻击的Web服务器版本的准确性和特异性。
关键思路

论文提出了一种基于BPE分词器和RoBERTa编码器的无监督掩码语言建模的方法，通过对HTTP响应状态行的编码来表示每个域名的Web服务器，并使用随机森林和多层感知器（MLP）对其进行分类。
其它亮点

论文在4.77百万个域名上进行了实验，并对五种最流行的起源Web服务器进行了检测，随机森林和MLP分别实现了0.94和0.96的宏F1得分。
相关研究

最近的相关研究包括基于规则的系统和其他基于机器学习的方法，如使用卷积神经网络和支持向量机等。

Fingerprinting web servers through Transformer-encoded HTTP response headers

提问交流

提问交流