CrashEventLLM: Predicting System Crashes with Large Language Models

简介

随着计算机系统在个人、工业和大规模应用领域的依赖日益扩大，人们迫切需要提高它们的可靠性，以保持业务运营的无缝性并确保最佳用户满意度。这些设备生成的系统日志是历史趋势和过去故障的宝贵存储库。使用机器学习技术进行故障预测已经成为常见做法，可以从过去的数据中提取洞察力，预测未来的行为模式。最近，大型语言模型在摘要、推理和事件预测等任务中展示了出色的能力。因此，在本文中，我们试图研究大型语言模型在预测系统故障方面的潜力，利用从过去的故障行为中学到的洞察力，有效地指导推理和决策过程。我们的方法涉及利用英特尔计算改进计划（ICIP）系统崩溃日志中的数据来识别重要事件并开发CrashEventLLM。这个模型是建立在大型语言模型框架上的，是我们进行崩溃事件预测的基础。具体来说，我们的模型利用历史数据来预测未来的崩溃事件，并受到专家注释的指导。此外，它不仅仅是预测，还提供了每个崩溃事件的潜在原因的洞察力。这项工作为基于日志的事件预测任务提供了基于提示的大型语言模型的初步洞察力。

作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~

图表

解决问题

研究如何利用大型语言模型预测系统崩溃事件并提供潜在原因的洞察。

关键思路

利用历史数据和专家注释，建立基于大型语言模型的CrashEventLLM模型，预测未来的崩溃事件并提供潜在原因。

其它亮点

使用Intel Computing Improvement Program (ICIP)系统崩溃日志数据集，提供了预测和解释崩溃事件的初步洞察。实验结果表明了该模型在崩溃事件预测方面的潜力。

CrashEventLLM: Predicting System Crashes with Large Language Models

提问交流

提问交流