- 简介在云计算系统中快速找到异常的根本原因对于确保可用性和效率至关重要,因为准确的根本原因可以指导工程师采取适当的措施来解决异常并保持客户满意度。然而,基于从复杂的云计算环境中收集的大规模和高维监控数据进行调查和识别根本原因是困难的。由于云计算系统固有的动态特性,目前的方法在实践中主要依赖于手动分析以提高灵活性和可靠性,但是大量的不可预测因素和高数据复杂性使得这个过程耗时。尽管自动检测和调查方法方面取得了最近的进展,但是这些方法缺乏专家参与,根本原因分析的速度和质量仍然受到限制。当前解决方案中发现的限制促使我们提出了一种视觉分析方法,以便于云计算系统中异常根本原因的交互式调查。我们确定了三个挑战,即a)为根本原因调查建立建模数据库,b)从大规模时间序列中推断根本原因,以及c)构建易于理解的调查结果。与领域专家合作,我们通过RCInvestigator解决了这些挑战,这是一种新颖的视觉分析系统,建立了人与机器之间的紧密协作,帮助专家调查云计算系统异常的根本原因。我们通过两个基于真实数据的用例评估了RCInvestigator的有效性,并收到了专家的积极反馈。
- 图表
- 解决问题如何快速找到云计算系统中异常的根本原因是一个挑战,因为大规模和高维度的监控数据使得手动分析耗时且不可靠。本论文旨在提出一种可视化分析方法,以便更好地协助专家调查云计算系统异常的根本原因。
- 关键思路本文提出了一种名为RCInvestigator的可视化分析系统,通过人机紧密协作,帮助专家调查云计算系统异常的根本原因。
- 其它亮点本文解决了三个挑战,包括建立根本原因调查的数据库、从大规模时间序列中推断根本原因以及构建易于理解的调查结果。通过两个真实数据的用例验证了RCInvestigator的有效性,并得到了专家的积极反馈。
- 近期的相关研究包括基于机器学习的自动异常检测和根本原因分析方法,以及其他可视化分析系统,如Vizdom和LogDiver。
沙发等你来抢
去评论
评论
沙发等你来抢