On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations

向作者提问

NEW

简介

在软件日志异常检测领域，许多基于深度学习的方法引起了相当大的关注。然而，一个实际的挑战仍然存在：公共数据中用于训练深度学习模型的类别不平衡。这种不平衡的特点是异常日志序列数量与正常日志序列数量之间存在显著差异，例如，在最流行的数据集中，异常情况不到1%。先前的研究表明，现有的深度学习日志异常检测方法在处理具有严重类别不平衡的数据集时可能表现不佳。通过数据重采样来缓解类别不平衡已经被证明对其他软件工程任务有效，但在日志异常检测方面尚未得到探索。本研究旨在提供对现有深度学习日志异常检测方法的不同数据重采样方法影响的深入分析。首先，我们评估了这些方法在三个数据集上的性能，并探讨了十种数据重采样方法在正常数据和异常数据之间的重采样比对性能的影响。其次，我们在使用最佳重采样比率的情况下评估数据重采样方法的有效性。我们的研究发现，过采样方法通常优于欠采样和混合方法。原始数据的数据重采样比特征空间的数据重采样效果更好。在大多数情况下，某些欠采样和混合方法的效果有限。此外，通过探索正常数据和异常数据的重采样比率，我们建议通过过采样为少数类生成更多数据，同时通过欠采样减少多数类的数据。总之，我们的研究为数据重采样方法和深度学习日志异常检测之间的复杂关系提供了有价值的见解。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题：如何解决软件日志异常检测中数据类别不平衡的问题？
关键思路

关键思路：通过比较不同的数据重采样方法对现有深度学习方法的影响，提出了在原始数据上进行过采样的方法可以提高异常检测性能的结论，并提出了在不同数据集上选择不同的重采样方法的建议。
其它亮点

其他亮点：实验使用了三个数据集，比较了10种不同的数据重采样方法对深度学习异常检测方法的影响，结果表明过采样方法通常优于欠采样和混合方法，而在原始数据上进行过采样的方法通常优于在特征空间中进行过采样的方法。建议在进行重采样时，通过过采样增加少数类数据，通过欠采样减少多数类数据。
相关研究

相关研究：最近的相关研究包括“Anomaly Detection in Log Data: A Survey”、“DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning”等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问