LLMParser: An Exploratory Study on Using Large Language Models for Log Parsing

2024年04月27日
  • 简介
    日志在现代软件开发中具有运行时信息的重要性。日志解析是许多基于日志的分析的第一步,这涉及从非结构化日志数据中提取结构化信息。传统的日志解析器面临着准确解析日志的挑战,因为日志格式的多样性直接影响下游日志分析任务的性能。在本文中,我们探讨了使用大型语言模型(LLMs)进行日志解析的潜力,并提出了基于生成式LLMs和少量调整的LLMParser,这是一种基于LLMs的日志解析器。我们利用四个LLMs,即Flan-T5-small,Flan-T5-base,LLaMA-7B和ChatGLM-6B在LLMParsers中。我们对16个开源系统进行的评估显示,LLMParser的解析准确性显著高于最先进的解析器(平均解析准确性为96%)。我们还对训练大小,模型大小和预训练LLM对日志解析准确性的影响进行了全面的实证分析。我们发现,较小的LLMs可能比更复杂的LLMs更有效;例如,Flan-T5-base在短推理时间内实现了与LLaMA-7B相当的结果。我们还发现,使用从其他系统的日志中预先训练的LLMs并不总是提高解析准确性。虽然使用预训练的Flan-T5-base可以提高准确性,但预训练的LLaMA会导致准确性降低(组准确性下降了近55%)。简而言之,我们的研究为使用LLMs进行日志解析提供了实证证据,并突出了基于LLMs的日志解析器的局限性和未来研究方向。
  • 图表
  • 解决问题
    本论文旨在探索使用大型语言模型(LLMs)进行日志解析的潜力,并提出了基于生成式LLMs和少样本调整的LLMParser。传统的日志解析器面临着准确解析各种日志格式的挑战,这直接影响了下游日志分析任务的性能。
  • 关键思路
    LLMParser利用四个LLMs,Flan-T5-small、Flan-T5-base、LLaMA-7B和ChatGLM-6B,实现了日志解析。研究发现,相比于现有的解析器,LLMParser具有更高的解析准确性(平均96%的解析准确性)。此外,研究还发现,较小的LLMs可能比更复杂的LLMs更有效,而使用来自其他系统的预训练LLMs并不总是能提高解析准确性。
  • 其它亮点
    该论文的实验设计充分,使用了16个开源系统的数据集进行评估,同时开源了代码。值得关注的是,该研究提供了使用LLMs进行日志解析的实证证据,并强调了LLM-based日志解析器的局限性和未来研究方向。
  • 相关研究
    在这个领域中,还有一些相关的研究,如基于规则的解析器、基于机器学习的解析器等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论