Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery

2024年04月13日
  • 简介
    广义类别发现(GCD)旨在基于从有标签数据中学到的知识,动态地为未标记的数据分配标签,其中未标记的数据可能来自已知或新颖的类别。目前的方法通常涉及对所有数据进行聚类,并通过原型对比学习来学习概念。然而,现有方法很大程度上依赖于聚类算法的性能,因此受到它们固有的限制。首先,估计的聚类数通常比实际情况少,使得现有方法缺乏全面概念学习的原型。为了解决这个问题,我们提出了一种自适应探测机制,引入可学习的潜在原型来扩展聚类原型(中心)。由于潜在原型没有确定的真值,我们开发了一个自监督原型学习框架,以端到端的方式优化潜在原型。其次,聚类计算密集,传统的同时对有标签和未标记实例进行聚类的策略加剧了这个问题。为了解决这个效率问题,我们选择仅对未标记实例进行聚类,并随后通过引入的潜在原型扩展聚类原型,快速探索新颖类别。尽管我们提出的方法很简单,但在广泛的数据集上进行的大量实证分析证实,我们的方法始终提供最先进的结果。具体而言,我们的方法在斯坦福汽车数据集中超过了最近的竞争者\textbf{9.7}$\%$,在Herbarium 19数据集中的聚类效率提高了\textbf{12倍}。我们将在\url{https://github.com/xjtuYW/PNP.git}公开代码和检查点。
  • 图表
  • 解决问题
    论文旨在解决Generalized Class Discovery (GCD)中现有方法的问题,即聚类算法的限制和计算效率低下,同时试图提出一种新的自适应探测机制来扩展聚类原型。
  • 关键思路
    论文提出了一种自适应探测机制,引入可学习的潜在原型来扩展聚类原型,解决了现有方法中聚类算法限制的问题。同时,该方法只聚类未标记的实例,通过引入潜在原型快速探索新的类别,提高了计算效率。
  • 其它亮点
    论文的实验结果表明,该方法在多个数据集上均能够取得最先进的结果,并且在Stanford Cars数据集上的表现超过了最近的竞争者9.7%,在Herbarium 19数据集上的聚类效率提高了12倍。论文提供了代码和检查点的开源,并鼓励进一步探索该方法的应用。
  • 相关研究
    最近的相关研究包括《Contrastive Learning for Unsupervised Generalized Zero-Shot Learning》、《Zero-shot learning via category-specific distributed feature representations》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论