- 简介密度基准距离(DBD)为度量学习问题提供了一种优雅的解决方案。通过定义随着概率密度降低而增加的黎曼度量,最短路径自然地遵循数据流形,数据点按照数据的模式进行聚类。我们发现,现有的估计费马距离的方法,即DBD的一种特定选择,在低维和高维中都存在收敛不良的问题,原因是i)密度估计不准确和ii)依赖于基于图的路径,在高维中越来越粗糙。为了解决这些问题,我们提出使用正则化流(normalizing flow)学习密度,这是一种具有可计算密度估计的生成模型,并采用从基于图的建议初始化的得分模型的平滑松弛方法。此外,我们引入了一种适应维度的费马距离,当扩展到高维时表现出更直观的行为,并提供更好的数值特性。我们的工作为在高维空间中实际使用基于密度的距离铺平了道路。
-
- 图表
- 解决问题本论文旨在解决度量学习中的问题,提出了基于密度的距离(DBD)的概念,通过定义随着概率密度减小而增加的黎曼度量,使最短路径自然地遵循数据流形,将点聚类到数据的模式中。
- 关键思路通过使用可计算密度估计的生成模型(normalizing flow)学习密度,并使用从基于图的提议初始化的分数模型进行平滑松弛方法,提出了适用于高维空间的自适应费马距离,解决了现有方法在低维和高维中收敛性差的问题。
- 其它亮点该论文提出了一种新的基于密度的距离概念,解决了度量学习中的问题,提高了在高维空间中的适用性。实验结果表明,该方法在多个数据集上的性能优于现有方法。此外,该论文使用了开源代码,为后续研究提供了方便。
- 在最近的相关研究中,也有关于基于密度的距离的研究,例如“Density-based distance metric learning for clustering”和“Density-based clustering with DBSCAN algorithm”,但这些方法并没有解决现有方法在高维中的收敛性问题。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流