- 简介由于恶意网站可能会收集信息用于非法目的,因此信任在线平台输入的数据的准确性可能会很困难。在存在这些恶意网站的情况下,分析每个网站变得具有挑战性,使得有效地列出黑名单上所有统一资源定位符(URL)变得困难。这种持续的挑战强调了强大的安全措施对于防范潜在威胁和未经授权的数据收集的重要性。为了检测恶意网站带来的风险,建议利用基于机器学习(ML)的技术。为此,我们使用了几种ML技术,例如Hist Gradient Boosting Classifier(HGBC),K-Nearest Neighbor(KNN),Logistic Regression(LR),Decision Tree(DT),Random Forest(RF),Multi-Layer Perceptron(MLP),Light Gradient Boosting Machine(LGBM)和Support Vector Machine(SVM)来检测良性和恶意网站数据集。使用的数据集包含1781条恶意和良性网站数据,具有13个特征。首先,我们研究了数据集上的缺失值插补。然后,我们通过缩放到零和一的范围来标准化这些数据。接下来,我们利用SMOTE技术平衡训练数据,因为数据集不平衡。之后,我们将ML算法应用于平衡的训练集。同时,所有算法都基于网格搜索进行了优化。最后,根据准确性、精确度、召回率、F1分数和曲线下面积(AUC)指标评估了模型。结果表明,与其他分类器相比,HGBC分类器在上述指标方面表现最佳。
- 图表
- 解决问题本论文旨在解决在线平台中恶意网站的检测问题,提出使用基于机器学习技术的方法进行检测。
- 关键思路论文提出使用多种机器学习算法对数据集进行训练和检测,其中采用了Hist Gradient Boosting Classifier (HGBC)分类器,取得了最佳性能。
- 其它亮点论文使用了包含1781个数据记录的数据集,并使用了缺失值插补、数据归一化和SMOTE技术进行数据预处理和平衡。实验结果表明,HGBC分类器在准确率、精确度、召回率、F1值和AUC指标方面表现最佳。
- 近期的相关研究包括基于深度学习的恶意网站检测方法、基于网络流量的恶意行为检测方法等。
沙发等你来抢
去评论
评论
沙发等你来抢