来自今天的爱可可AI前沿推介

[LG] Stop using the elbow criterion for k-means and how to choose the number of clusters instead

E Schubert
[TU Dortmund University]

K-均值聚类应停止使用肘部准则以及替代的聚类数选择方法

要点:

  1. 对K-均值聚类来说,肘部法不可靠,严重缺乏理论支持,应该用更好的替代方法,如方差比率准则(VRC)、贝叶斯信息准则(BIC)或间隙统计;
  2. 教育工作者应该解释更好的替代方法,数据科学家不应依赖评估措施告诉他们什么是“最好的”;
  3. 科研论文的评审者应该拒绝使用肘部法选择“最佳”K值的结论。

摘要:
日常使用K均值聚类时的一个主要挑战是如何选择参数K,即聚类的数量。本文指出,很容易从常见的启发式“肘部法”中得出糟糕的结论。长期以来,文献中已经提出了更好的替代方法,本文想提请注意其中一些易于使用的选择,它们通常表现更好。本文呼吁完全停止使用肘部法,因为它严重缺乏理论支持,希望鼓励教育工作者讨论这种方法的问题——如果在课堂上介绍它的话——转而教授替代方案,而研究人员和评审人员应该拒绝从肘部法中得出的结论。

A major challenge when using k-means clustering often is how to choose the parameter k, the number of clusters. In this letter, we want to point out that it is very easy to draw poor conclusions from a common heuristic, the "elbow method". Better alternatives have been known in literature for a long time, and we want to draw attention to some of these easy to use options, that often perform better. This letter is a call to stop using the elbow method altogether, because it severely lacks theoretic support, and we want to encourage educators to discuss the problems of the method -- if introducing it in class at all -- and teach alternatives instead, while researchers and reviewers should reject conclusions drawn from the elbow method.

论文链接:https://arxiv.org/abs/2212.12189
图片
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除