- 简介现代 IT 系统的管理面临着独特的挑战,需要处理大量数据流时具备可扩展性、可靠性和高效性。传统的手动任务和基于规则的方法对于 IT 系统产生的大量数据量和警报来说效率低下。基于人工智能的运营系统(AIOps)应运而生,利用机器学习和大数据等先进分析技术来增强事故管理。AIOps 可以检测和预测事故,识别根本原因并自动执行修复操作,提高质量并降低运营成本。然而,尽管 AIOps 具有巨大潜力,但该领域仍处于早期阶段,分散在多个部门中,缺乏标准化的约定。研究和工业贡献没有一致的数据管理框架、目标问题、实现细节、要求和能力。本研究提出了 AIOps 的术语和分类法,建立了结构化的事故管理流程,并提供了构建 AIOps 框架的指南。该研究还根据事故管理任务、应用领域、数据来源和技术方法等标准对贡献进行了分类。目标是全面审查 AIOps 技术和研究方面,以构建知识结构,识别差距,并为该领域的未来发展奠定基础。
- 图表
- 解决问题本文旨在提出一种AIOps术语和分类法,建立一个结构化的事件管理流程,并为构建AIOps框架提供指南。
- 关键思路利用机器学习和大数据等高级分析技术,AIOps可以检测和预测事件,识别根本原因,并自动执行修复操作,从而提高质量并降低运营成本。
- 其它亮点本文提出了一种AIOps术语和分类法,为未来的研究提供了基础。同时,通过分类贡献,如事件管理任务,应用领域,数据来源和技术方法等,对AIOps进行了全面的技术和研究方面的回顾。
- 最近在这个领域中,还有一些相关研究,例如:《基于AIOps的网络故障自愈系统研究》、《一种基于AIOps的云计算资源调度方法》等。
沙发等你来抢
去评论
评论
沙发等你来抢