Exploring LLM-based Agents for Root Cause Analysis

2024年03月07日
  • 简介
    云软件系统日益复杂化,导致事故管理成为软件开发生命周期的重要组成部分。根本原因分析(RCA)是事故管理过程中至关重要的一部分,对于值班工程师来说是一项艰巨的任务,需要深入的领域知识和对团队特定服务的广泛经验。自动化RCA可以节省大量时间,并减轻值班工程师在事故管理方面的负担。近年来,研究人员利用大型语言模型(LLMs)进行RCA,并展示了有希望的结果。然而,这些方法无法动态收集其他诊断信息,例如与事故相关的日志、指标或数据库,严重限制了它们诊断根本原因的能力。在这项工作中,我们探索使用基于LLM的代理进行RCA以解决这个限制。我们在Microsoft收集的一个生产事故的超分布数据集上,对配备检索工具的ReAct代理进行了彻底的实证评估。结果显示,ReAct在高度增加事实准确性的同时,与强大的检索和推理基线相比表现出竞争力。然后,我们通过将与事故报告相关的讨论作为模型的附加输入来扩展这个评估,令人惊讶的是,这并没有带来显著的性能改进。最后,我们与Microsoft的一个团队进行了案例研究,为ReAct代理配备了可让其访问团队用于手动RCA的外部诊断服务的工具。我们的结果展示了代理如何克服先前工作的限制,以及在实践中实施这样一个系统的实际考虑因素。
  • 图表
  • 解决问题
    解决云端软件系统日益复杂化的根本原因分析(RCA)过程中需要大量领域知识和经验的问题,通过使用基于大型语言模型的智能代理来自动化RCA过程
  • 关键思路
    使用带有检索工具的ReAct代理来解决先前工作的限制,使其能够动态收集附加诊断信息,同时通过案例研究展示代理如何克服这些限制
  • 其它亮点
    论文通过在微软收集的生产事故数据集上进行全面的实证评估,展示了ReAct代理在与强检索和推理基线相比具有高度提高的事实准确性的情况下表现出色。此外,论文还探讨了将与事故报告相关的讨论作为模型的额外输入的效果,以及如何通过为ReAct代理提供访问外部诊断服务的工具来改进其性能。
  • 相关研究
    最近的相关研究包括使用大型语言模型进行RCA的先前工作,以及在自然语言处理和机器学习领域中使用的检索和推理技术的相关研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论