Cloud Atlas: Efficient Fault Localization for Cloud Systems using Language Models and Causal Insight

2024年07月11日
  • 简介
    现代云系统中的运行故障和性能下降非常普遍。对于云服务提供商来说,自动确定事件的根本原因对于确保高可靠性和可用性至关重要,因为快速的故障定位可以加快诊断和及时解决问题。最近的一项有吸引力的解决方案是使用因果推理来捕捉不同云系统性能指标之间的关系,以此构建因果图。然而,为了使这种方法有效,系统开发人员必须正确定义其系统的因果图,这是一项耗时、脆弱和具有挑战性的任务,特别是对于大型和动态系统,需要领域专业知识。另外,由于事件的固有稀有性,基于数据驱动的方法在云系统中的有效性有限。在这项工作中,我们提出了一种名为Atlas的新方法,用于自动合成云系统的因果图。Atlas利用大型语言模型(LLMs)来使用系统文档、遥测和部署反馈生成因果图。Atlas是数据驱动因果发现技术的补充,我们进一步增强了Atlas的数据驱动验证步骤。我们在一系列故障定位场景中评估了Atlas,并证明Atlas能够以可扩展和可推广的方式生成因果图,其性能远远超过数据驱动算法,并与基准测试结果相当。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决云系统中故障定位的问题,提出自动合成因果关系图的方法。
  • 关键思路
    使用大型语言模型(LLM)结合系统文档、遥测和部署反馈,自动生成云系统的因果关系图。并使用数据驱动的验证步骤来增强自动生成的因果关系图。
  • 其它亮点
    论文在多种故障定位场景下评估了Atlas方法,并展示了其可扩展性和通用性。该方法的性能远高于数据驱动算法,并与基线方法相当。
  • 相关研究
    最近的相关研究包括基于数据驱动的因果发现技术和手动定义因果关系图的方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问