- 简介相对有效性指数(RVIs),如Silhouette Width Criterion、Calinski-Harabasz和Davie的Bouldin指数,是评估和优化聚类应用最常用的工具。它们能够排名候选分区集合,用于指导选择聚类数,并比较来自不同聚类算法的分区。除了这些更常规的任务外,文献中还可以找到许多例子,其中RVIs已被用于比较和选择聚类方法的其他方面,如数据归一化程序、数据表示方法和距离度量。作者不知道是否有研究试图确定RVIs对这些比较的适用性。此外,鉴于这些方面对成对相似性的影响,即使在比较这些方面时,RVIs的实施方式也不是立即明显的。在本研究中,我们对超过270万个聚类分区的合成和实际数据集进行了七种常见RVIs的实验,涵盖了特征向量和时间序列数据。我们的研究结果表明,RVIs不适合这些非传统任务,并且从这些应用中得出的结论可能是误导性的。建议使用高质量标记数据集的外部验证或经过精心设计的结果导向的客观标准来选择归一化程序、表示方法和距离度量,这两者都应受相关领域知识和聚类目标的影响。
-
- 图表
- 解决问题本论文旨在探讨相对有效性指数(RVIs)在聚类任务中的应用,特别是在比较和选择数据规范化程序、数据表示方法和距离度量时的应用。作者认为现有的RVIs并不适用于这些非传统的任务,并且可能会导致误导性的结论。
- 关键思路通过对超过270万个聚类分区的实验,作者发现RVIs并不适用于比较和选择非传统的聚类任务中的数据规范化程序、数据表示方法和距离度量。相反,作者建议使用高质量标记数据集上的外部验证或经过精心设计的面向结果的客观标准来选择这些方案,这两种方法都应该受到相关领域知识和聚类目标的支持。
- 其它亮点论文使用了超过270万个聚类分区的实验,并且涵盖了特征向量和时间序列数据。实验结果表明,RVIs并不适用于非传统聚类任务中的数据规范化程序、数据表示方法和距离度量。作者建议使用高质量标记数据集上的外部验证或经过精心设计的面向结果的客观标准来选择这些方案,这两种方法都应该受到相关领域知识和聚类目标的支持。
- 近期的相关研究包括使用深度学习方法进行聚类、探索新的聚类算法以及研究聚类任务中的数据规范化和距离度量方法。其中一些相关研究的论文标题包括“Deep Clustering for Unsupervised Learning of Visual Features”,“A Survey of Clustering Algorithms”和“Distance Metric Learning for Large Margin Nearest Neighbor Classification”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流