A Survey of AIOps for Failure Management in the Era of Large Language Models

2024年06月17日
  • 简介
    随着软件系统变得越来越复杂,人工智能运维(AIOps)方法已被广泛用于软件系统故障管理,以确保大规模分布式软件系统的高可用性和可靠性。然而,这些方法仍面临一些挑战,例如缺乏跨平台的通用性和跨任务的灵活性。幸运的是,最近大语言模型(LLM)的进展可以显著解决这些挑战,并已经提出了许多探索这一领域的方法。然而,目前还没有全面的调查讨论基于LLM的AIOps与传统AIOps方法之间的差异。因此,本文介绍了LLM时代的AIOps技术在故障管理方面的全面调查。它包括对故障管理的AIOps任务的详细定义,AIOps的数据来源以及采用的基于LLM的方法。此外,本调查还探讨了AIOps子任务,适用于不同AIOps子任务的特定基于LLM的方法,以及该领域的挑战和未来方向,旨在进一步促进其发展和应用。
  • 图表
  • 解决问题
    本文旨在综述大语言模型(LLMs)在AIOps领域中的应用,以解决传统AIOps方法中跨平台普适性和跨任务灵活性的不足。
  • 关键思路
    本文提出了基于LLMs的AIOps方法,通过采用不同的LLMs模型,分别适用于AIOps的不同子任务,从而提高了AIOps的跨平台普适性和跨任务灵活性。
  • 其它亮点
    本文详细定义了AIOps任务的失效管理、AIOps的数据来源以及基于LLMs的AIOps方法。本文还探讨了AIOps子任务、不同AIOps子任务适用的具体LLMs方法以及该领域的挑战和未来方向。
  • 相关研究
    在这个领域的相关研究包括:《基于机器学习的AIOps:现状和未来》、《AIOps:从数据到洞察》、《AIOps:现状和未来》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论