- 简介最近,深度聚类(DC)作为深度表示学习和聚类的结合,在数据科学领域,特别是文本处理和计算机视觉方面,已经表现出积极的结果。然而,特征学习和多维空间中数据分布的联合优化是特定于领域的,因此现有的DC方法很难推广到其他应用领域(如数据集成和清洗)。在数据管理任务中,高密度嵌入和重叠聚类占主导地位,数据管理专用的DC算法应该能够更好地与数据属性交互,支持数据清洗和集成任务。本文提出了一种针对表格数据的深度聚类算法(TableDC),反映了数据管理应用的特性,特别是模式推断、实体解析和领域发现。为了解决重叠聚类,TableDC集成了Mahalanobis距离,考虑了数据内部的方差和相关性,提供了适合于高维潜在空间中的表格、行或列的相似性方法。TableDC提供了灵活的最终聚类分配方式,并通过其重尾的柯西分布作为相似性核心,显示出对异常值的更高容忍度。所提出的相似度测量方法特别有益于原始数据的嵌入密集且存在高度重叠的情况。数据清洗任务可能涉及大量的聚类,这影响了现有DC方法的可扩展性。TableDC的自监督模块可以有效地学习具有大量聚类的数据嵌入,而现有基准方法在二次时间内缩放。我们在基准数据集上评估了TableDC与几种现有的DC、标准聚类(SC)和最先进的定制方法。TableDC始终优于现有的DC、SC和定制方法。
- 图表
- 解决问题本文试图提出一种适用于表格数据的深度聚类算法(TableDC),以解决数据管理任务中的数据清理和集成问题。
- 关键思路TableDC算法结合了Mahalanobis距离和重尾Cauchy分布相似性核,以更好地处理高密度嵌入和重叠聚类。此外,该算法采用了自监督模块,可以高效地学习具有大量聚类的数据嵌入。
- 其它亮点该算法在多个基准数据集上进行了评估,并与现有的深度聚类、标准聚类和专有方法进行了比较。结果表明,TableDC算法在数据清理和集成任务中具有更高的鲁棒性和可伸缩性。
- 近期的相关研究包括:'Deep Clustering for Unsupervised Learning of Visual Features','Deep Embedding Learning via Multi-task Clustering for Wireless Sensor Networks'等。
沙发等你来抢
去评论
评论
沙发等你来抢