A Neighbor-Searching Discrepancy-based Drift Detection Scheme for Learning Evolving Data

简介

数据流中的不确定变化给机器学习模型在实时动态适应和维持性能方面带来了挑战。特别是，分类边界的变化，也称为真实概念漂移，是分类性能恶化的主要原因。然而，准确地检测真实概念漂移仍然具有挑战性，因为现有漂移检测方法的理论基础——双样本分布检验和监测分类错误率，都存在固有的局限性，如无法区分虚拟漂移（不影响分类边界的变化，会引入不必要的模型维护）、统计功率有限或计算成本高等。此外，没有现有的检测方法能够提供关于漂移趋势的信息，这对于模型维护来说可能是非常有价值的。本文提出了一种基于邻居搜索差异的新型真实概念漂移检测方法，该方法使用一种新的统计量来衡量两个样本之间的分类边界差异。该方法能够高精度地检测真实概念漂移，同时忽略虚拟漂移。它还可以通过识别某个类别的入侵或撤退来指示分类边界变化的方向，这也是类别可分性变化的指标。本研究进行了11个实验的全面评估，包括使用人工数据集对所提出的理论进行实证验证，以及在实际数据集上与常用的漂移处理方法进行实验比较。结果表明，所提出的理论对于各种分布和维度都很鲁棒，漂移检测方法的性能优于现有的替代方法。
图表
解决问题

提出一种新的实概念漂移检测方法，解决现有检测方法无法准确检测实概念漂移的问题。同时，该方法还能指示漂移的趋势。
关键思路

该论文提出了一种基于Neighbor-Searching Discrepancy的新统计量，用于衡量两个样本之间的分类边界差异，从而检测实概念漂移，并指示漂移的趋势。
其它亮点

论文通过实验验证了该方法的鲁棒性和优越性，比现有的漂移处理方法表现更好。实验使用了人工数据集和真实世界数据集，并与常用的漂移处理方法进行了比较。论文还指出该方法的优点是能够忽略虚假漂移，指示漂移的趋势，以及适用于各种分布和维度的数据。
相关研究

与该论文相关的研究包括："A Survey on Concept Drift Adaptation"，"Online Learning from Non-Stationary Data Streams: An Overview"等。

A Neighbor-Searching Discrepancy-based Drift Detection Scheme for Learning Evolving Data

评论