许多算法,不管是有监督的还是无监督的,都会使用距离测量。这些度量方法,如欧氏距离或余弦相似度,经常可以在KNN、UMAP、HDBSCAN等算法中找到。理解距离测量领域比你可能意识到的更重要。
以KNN为例,这是一种常用于监督式学习的技术。作为默认设置,它通常使用欧几里得度量。就其本身而言,是一个很好的距离测量方法。然而,如果你的数据是高维的,那么欧几里得距离还能用吗?或者,如果你的数据由地理空间信息组成呢?也许Haversine距离会是一个更好的选择。知道何时使用哪种距离测量方法可以帮助你从一个差的分类器变成一个准确的模型。
在本文中,我们将介绍不同的距离测量方法,并探索如何以及何时最好地使用它们。最重要的是,我会谈谈各自的缺点,这样你就能知道何时该避开使用某些距离度量的措施。
感兴趣的可以戳原文。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢