- 简介大规模数据中心经常会出现内存故障,其中不可纠正错误(UE)突显了双列直插式内存模块(DIMM)中的严重故障。现有方法主要利用可纠正错误(CE)来预测UE,但它们通常忽略这些错误在不同CPU架构之间的差异,特别是在纠错码(ECC)适用性方面。在本文中,我们调查了不同CPU架构(包括X86和ARM)之间CE和UE之间的相关性。我们的分析确定了与每个处理器平台相关的内存故障的独特模式。利用生产数据集上的机器学习(ML)技术,我们在不同处理器平台上进行内存故障预测,相对于现有算法,F1得分提高了高达15%。最后,提供了一个MLOps(机器学习运营)框架,以在生产环境中持续改进故障预测。
-
- 图表
- 解决问题本论文旨在解决大规模数据中心中内存故障的问题,特别是如何预测不可纠正错误(UEs),并探讨CEs和UEs在不同CPU架构中的关系。
- 关键思路通过对生产数据集的机器学习技术分析,识别出不同处理器平台与内存故障相关的独特模式,并在不同处理器平台上实现内存故障预测,相比现有算法提高了15%的F1分数。提出了一个MLOps框架以在生产环境中持续改进故障预测。
- 其它亮点本论文的亮点包括使用不同CPU架构的生产数据集进行分析,提高了内存故障预测的准确性;提出了一个MLOps框架以持续改进故障预测;实验设计严谨,使用了多种数据集和机器学习技术。
- 近期相关研究包括“Predictive Modeling of Memory Errors in Large-Scale Data Centers Using Machine Learning”和“Memory Failure Prediction for Data Centers Using Machine Learning”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流