Xpert: Empowering Incident Management with Query Recommendations via Large Language Models

2023年12月19日
  • 简介
    大规模云系统在现代IT基础设施中起着关键作用。然而,这些系统中发生的事件可能导致服务中断并对用户体验产生不利影响。为了迅速解决这些事件,值班工程师依赖于编写特定领域语言(DSL)查询来分析遥测数据。然而,编写这些查询可能具有挑战性和耗时。本文对微软大规模云管理系统中用于事件管理的DSL KQL查询的利用进行了彻底的实证研究。所得到的发现强调了KQL查询推荐增强事件管理的重要性和可行性。 在这些宝贵的洞见基础上,我们介绍了Xpert,一个端到端的机器学习框架,自动化KQL推荐过程。通过利用历史事件数据和大型语言模型,Xpert生成定制的KQL查询,以适应新事件。此外,Xpert还包括一种新颖的性能指标Xcore,从三个全面的角度对查询质量进行彻底评估。我们进行了广泛的Xpert评估,证明了它在离线设置中的有效性。值得注意的是,我们在微软的大规模事件管理系统的真实生产环境中部署了Xpert,验证了其在支持事件管理方面的效率。据我们所知,本文是其类别的第一项实证研究,Xpert是专为事件管理而设计的开创性DSL查询推荐框架。
  • 图表
  • 解决问题
    论文旨在解决大规模云系统中的故障管理问题,即如何快速解决故障,并提高用户体验。具体而言,论文关注于自动化DSL查询的推荐过程,以提高故障管理的效率。
  • 关键思路
    论文提出了一种使用历史故障数据和大型语言模型生成定制化KQL查询的机器学习框架Xpert。Xpert还引入了一种新的性能指标Xcore,以全面评估查询质量。
  • 其它亮点
    论文通过对微软大规模云管理系统中KQL查询的实证研究,发现推荐KQL查询可以显著提高故障管理的效率。Xpert框架在离线设置下的广泛评估证明了其有效性,而在微软实际生产环境中的部署则验证了其支持故障管理的效率。
  • 相关研究
    近年来,涉及自动化故障管理的相关研究逐渐增多。例如:"DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning"、"Log2vec: Unsupervised Learning of Log Event Embeddings for Anomaly Detection in Cloud Systems"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论