How to Sustainably Monitor ML-Enabled Systems? Accuracy and Energy Efficiency Tradeoffs in Concept Drift Detection

2024年04月30日
  • 简介
    在生产环境中部署的ML系统通常会因为概念漂移而导致模型预测质量下降,即某个真实世界领域的统计特征逐渐改变。为了解决这个问题,一个简单的解决方案是定期重新训练ML模型,但这可能会消耗大量的能源。因此,提高能源效率的一个推荐策略是系统地监测概念漂移的程度,并在不可避免时才进行重新训练。虽然有不同的方法可以做到这一点,但我们对它们在准确性和能源效率之间权衡的具体影响知之甚少,因为这些方法本身也会消耗能源。 为了解决这个问题,我们进行了一项受控实验,研究了七种常见概念漂移检测方法的准确性与能源效率之间的权衡。我们使用了五个合成数据集,每个数据集都有突变和渐变漂移的版本,并训练了六个不同的ML基分类器。基于全因子设计,我们测试了420个组合(7种漂移检测器* 5个数据集* 2种漂移类型* 6个基分类器),并比较了能源消耗和漂移检测准确性。 我们的结果表明,有三种类型的检测器:a)为了检测准确性而牺牲能源效率的检测器(KSWIN),b)消耗低至中等能量且具有良好准确性的平衡检测器(HDDM_W,ADWIN),以及c)能源消耗非常少但在实践中无法使用的检测器,因为准确性非常差(HDDM_A,PageHinkley,DDM,EDDM)。通过为这种能源效率策略提供丰富的证据,我们的研究结果支持ML从业者选择最适合其ML系统的概念漂移检测方法。
  • 作者讲解
  • 图表
  • 解决问题
    研究如何在减少能源消耗的前提下,有效地检测概念漂移,以提高生产环境中机器学习模型的预测质量。
  • 关键思路
    通过对七种常见的概念漂移检测方法进行实验比较,发现它们可以分为三类:以检测准确性为代价的高能耗检测器(KSWIN),具有良好准确性和低至中等能耗的平衡检测器(HDDM_W、ADWIN),以及能源消耗非常低但实际上无法使用的检测器(HDDM_A、PageHinkley、DDM、EDDM)。
  • 其它亮点
    使用了五个合成数据集,每个数据集都有突变和渐变漂移版本,使用了六个不同的机器学习模型作为基分类器,共测试了420种组合。实验结果为机器学习从业者提供了选择合适的概念漂移检测方法的依据。
  • 相关研究
    与该论文相关的研究包括概念漂移检测方法的改进,如基于深度学习的方法,以及在概念漂移检测方面的其他实验研究,如对比不同检测方法的准确性和效率等。相关论文包括:“A Deep Learning Approach to Concept Drift Detection”和“An Experimental Comparison of Performance Metrics for Classification Tasks with Concept Drift”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问