论文链接:https://arxiv.org/abs/2206.07579

聚类是一种基本的机器学习任务,在文献中得到了广泛的研究。经典的聚类方法遵循这样的假设:通过各种表示学习技术,数据被表示为向量化的特征。随着数据变得越来越复杂和复杂,浅层(传统)聚类方法不再能够处理高维数据类型。随着深度学习,尤其是深度无监督学习的巨大成功,在过去的十年中,许多具有深度架构的表示学习技术被提出。融入深度学习好处的一种直接方法是,在将其输入浅层聚类方法之前,首先学习深度表示。然而,这是次优的,因为: 1) 表示不是直接学习的聚类,限制了聚类性能;(2)聚类依赖于实例间的复杂关系而非线性关系;3)聚类和表示学习是相互依赖的,应该相互促进。为了应对上述挑战,深度聚类(Deep Clustering)的概念被提出,即联合优化表征学习和聚类,因此受到越来越多的关注。基于深度学习在聚类(最基本的机器学习任务之一)中的巨大成功,以及该方向最近的大量进展,本文通过提出不同最新方法的新分类,对深度聚类进行了全面的调研。我们总结了深度聚类的基本组成部分,并通过设计深度表示学习和聚类之间的交互方式对现有方法进行分类。此外,该综述还提供了流行的基准数据集、评估指标和开源实现,以清楚地说明各种实验设置。最后,我们讨论了深度聚类的实际应用,并提出了值得进一步研究的具有挑战性的主题作为未来的方向。

内容中包含的图片若涉及版权问题,请及时与我们联系删除