CBMAP: Clustering-based manifold approximation and projection for dimensionality reduction

2024年04月27日
  • 简介
    降维方法被用来减少数据维度,以提高机器学习性能或在二维或三维空间中方便数据可视化。这些方法通常分为两类:特征选择和特征转换。特征选择保留重要特征,而特征转换将数据投影到低维空间中,可以使用线性和非线性方法。虽然非线性方法在保留局部结构和捕捉非线性关系方面表现出色,但它们可能难以解释全局结构,并且计算成本高。最近的算法(如t-SNE、UMAP、TriMap和PaCMAP)优先考虑保留局部结构,往往以牺牲准确表示全局结构为代价,导致聚类在低维空间中更分散。此外,这些方法严重依赖于超参数,使其结果对参数设置敏感。为了解决这些限制,本研究引入了一种基于聚类的方法,即CBMAP(Clustering-Based Manifold Approximation and Projection),用于降维。CBMAP旨在保留全局和局部结构,确保低维空间中的聚类与高维空间中的聚类非常相似。基准数据集上的实验评估证明了CBMAP的有效性,提供了速度、可扩展性和对超参数的最小依赖性。重要的是,CBMAP使测试数据可以进行低维投影,解决了机器学习应用中的一个关键需求。CBMAP可以在https://github.com/doganlab/cbmap上免费获取,并可以使用pip install cbmap命令从Python Package Directory(PyPI)软件存储库安装。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在提出一种聚类为基础的降维方法,即CBMAP,以解决传统方法在保留全局结构和局部结构方面的局限性,并且能够在机器学习应用中进行测试数据的低维度映射。
  • 关键思路
    CBMAP方法通过聚类来保留全局结构和局部结构,从而在保留数据特征的同时,实现高维数据到低维数据的映射。相较于传统的降维方法,CBMAP方法具有更高的速度,更好的可扩展性和更少的超参数依赖。
  • 其它亮点
    CBMAP方法可以实现测试数据的低维度映射,具有更高的速度、更好的可扩展性和更少的超参数依赖。实验结果表明,CBMAP方法在保留全局结构和局部结构方面具有更好的表现。CBMAP方法的开源代码可以在https://github.com/doganlab/cbmap上找到,并且可以从Python软件库(PyPI)中安装。
  • 相关研究
    最近的相关研究包括t-SNE、UMAP、TriMap和PaCMAP等算法,这些算法重视保留局部结构,但可能在保留全局结构方面表现不佳,并且对超参数的依赖较强。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问