Anomaly Detection on Unstable Logs with GPT Models

简介

日志基于异常检测已经被广泛研究，作为提高软件密集型系统可靠性的一种方式。实际上，由于软件演化过程中的更改，日志可能不稳定。这反过来会降低下游日志分析活动（如异常检测）的性能。在这些不稳定日志上检测异常的关键挑战是缺乏关于新日志的信息，因为新软件版本的日志数据不足。大型语言模型（LLMs）在许多软件工程任务中的应用已经彻底改变了各个领域。在本文中，我们报告了一个对LLM和其他模型在不稳定日志上进行异常检测的实验比较。主要动机是LLMs在广泛数据集上的预训练可能会使其对不同模式和上下文信息有坚实的理解，这可以用于缓解软件演化环境下数据不足的问题。我们在LOGEVOL-Hadoop的两个版本数据集上的实验结果表明，当在不稳定日志上进行评估时，经过微调的LLM（GPT-3）略优于监督基准。随着日志序列变化程度的增加，GPT-3与其他监督方法之间的差异趋向于变得更加显著。然而，不清楚在所有情况下差异是否具有实际意义。最后，我们对提示工程（使用GPT-4）和微调进行比较，结果显示后者在稳定和不稳定日志上都提供了显着优越的性能，为在这个领域有效利用LLMs提供了有价值的见解。
图表
解决问题

论文旨在解决在软件演化过程中，由于日志数据不稳定导致日志分析活动（如异常检测）性能下降的问题。同时，由于新版本软件的日志数据不足，检测异常的关键挑战是缺乏新日志的信息。
关键思路

论文提出利用大型语言模型（LLMs）进行异常检测，通过预训练LLMs在大规模数据集上的能力，使其能够理解不同的模式和上下文信息，从而缓解数据不足的问题。
其它亮点

论文实验比较了LLMs和其他模型在不稳定日志上的异常检测性能，发现经过微调的LLM（GPT-3）在不稳定日志上略优于有监督的基线模型。此外，论文还比较了GPT-4的提示工程和微调，发现后者在稳定和不稳定日志上都具有显着优越性。
相关研究

在这个领域，最近的相关研究包括：《Log-based Anomaly Detection via Metric Learning》、《DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning》等。

Anomaly Detection on Unstable Logs with GPT Models

评论