Learning Distances from Data with Normalizing Flows and Score Matching

向作者提问

NEW

简介

密度基准距离（DBD）为度量学习问题提供了一种优雅的解决方案。通过定义随着概率密度降低而增加的黎曼度量，最短路径自然地遵循数据流形，数据点按照数据的模式进行聚类。我们发现，现有的估计费马距离的方法，即DBD的一种特定选择，在低维和高维中都存在收敛不良的问题，原因是i）密度估计不准确和ii）依赖于基于图的路径，在高维中越来越粗糙。为了解决这些问题，我们提出使用正则化流（normalizing flow）学习密度，这是一种具有可计算密度估计的生成模型，并采用从基于图的建议初始化的得分模型的平滑松弛方法。此外，我们引入了一种适应维度的费马距离，当扩展到高维时表现出更直观的行为，并提供更好的数值特性。我们的工作为在高维空间中实际使用基于密度的距离铺平了道路。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决度量学习中的问题，提出了基于密度的距离（DBD）的概念，通过定义随着概率密度减小而增加的黎曼度量，使最短路径自然地遵循数据流形，将点聚类到数据的模式中。
关键思路

通过使用可计算密度估计的生成模型（normalizing flow）学习密度，并使用从基于图的提议初始化的分数模型进行平滑松弛方法，提出了适用于高维空间的自适应费马距离，解决了现有方法在低维和高维中收敛性差的问题。
其它亮点

该论文提出了一种新的基于密度的距离概念，解决了度量学习中的问题，提高了在高维空间中的适用性。实验结果表明，该方法在多个数据集上的性能优于现有方法。此外，该论文使用了开源代码，为后续研究提供了方便。
相关研究

在最近的相关研究中，也有关于基于密度的距离的研究，例如“Density-based distance metric learning for clustering”和“Density-based clustering with DBSCAN algorithm”，但这些方法并没有解决现有方法在高维中的收敛性问题。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问