

关键词:大规模并行计算,高维欧氏空间,聚类

导 读
本文是对已被 ICALP 2024 接收的 Fully-Scalable MPC Algorithms for Clustering in High Dimension 一文的解读。该工作由北京大学姜少峰课题组与英国、以色列、捷克的学者合作完成,论文主要贡献者之一高贵晨为北京大学计算机学院博士生。论文聚焦于大规模并行计算(Massively Parallel Computation, MPC)模型下高维欧氏空间中聚类问题,提出了一种新的用于几何聚合的 MPC 原语,并针对一系列聚类问题设计了完全可扩展的常数轮 MPC 算法。

↑扫码跳转论文
论文链接:
https://arxiv.org/abs/2307.07848
01
问题及背景
对大规模数据进行聚类是计算机科学中一项基本的计算任务,我们主要考虑欧氏空间下的
均匀设施选址(Uniform Facility Location, UFL)是与聚类问题密切相关的一个问题。我们考虑欧氏空间下的 UFL 问题。给定一个数据集
除了轮数尽量追求常数轮,MPC 算法还应该是完全可扩展(Fully Scalable)的:即算法在任何内存参数
02
主要结果
针对高维欧氏空间中的 UFL、
定理1. 存在一个高概率成功的 MPC 算法,对任何
对于
03
技术概述
下面,我们将概述定理1算法的重要组成部分以及技术思想。我们首先给出一个更具有局部性的求解 UFL 的算法框架,然后讨论 MPC 上的实现问题。
3.1 UFL 的新局部算法
我们的新算法是对 Mettu-Plaxton (MP) 算法[4]的改造。不失一般性地,设开设代价
因此我们提出了一个新的局部算法来替代第二步。具体而言,假定算法已经得到了第一步所有
P1:独立于其他数据点,每个数据点
P2:对每一个数据点
我们讨论上述两个决策规则的设计动机。首先可以证明这两个决策的期望开设代价是最优解的常数倍,因此主要应该关注这两个决策对于连接代价的影响。P1 的规则倾向于较为均匀的开设设施,直觉上可以较好解决比较均匀的数据集。然而,如果数据集含有极远的孤立点,则 P1 可能会有概率不在这种孤立点开设设施,从而产生极大的连接代价。P2 可以一定程度上弥补这点:在孤立点的小邻域内一定会开设一个设施(开在
因此,对于新的局部算法的分析,尤其是将互相影响的 P1 和 P2 的随机性统筹考虑,是本工作的主要技术贡献。
3.2 MPC 实现:新的几何聚合 MPC 原语
为了实现完全可扩展的常数轮 MPC 算法,注意到
上述步骤均可以建模成一个几何聚合问题,即都可以看做是对某个“可聚合”的函数值的计算。我们称函数
我们提出了一个可在高维欧氏空间下计算一般的可聚合
因此,利用新提出的局部算法,结合新的 MPC 原语,我们可以在常数轮得到 UFL 问题的完全可扩展的 MPC 算法,且近似比为常数。
04
总 结
本文探索了高维欧式空间中一系列聚类问题的完全可扩展的 MPC 算法,提出了适用于高维欧氏空间的几何聚合 MPC 原语。尽管本文的研究给出了常数双标准近似的
参考文献
[1] Howard J. Karloff, Siddharth Suri, and Sergei Vassilvitskii. A model of computation for MapReduce. SODA 2010.
[2] Aditya Bhaskara and Maheshakya Wijewardena. Distributed clustering via LSH based data partitioning. ICML 2018.
[3] Vincent Cohen-Addad, Silvio Lattanzi, Ashkan Norouzi-Fard, Christian Sohler, and Ola Svensson. Parallel and efficient hierarchical k-median clustering. NeurIPS 2021.
[4] Ramgopal R. Mettu and C. Greg Plaxton. The online median problem. SIAM Journal on Computing 2003.
[5] Mihai Bădoiu, Artur Czumaj, Piotr Indyk, and Christian Sohler. Facility location in sublinear time. ICALP 2005.
[6] Artur Czumaj, Arnold Filtser, Shaofeng H.-C. Jiang, Robert Krauthgamer, Pavel Veselý, and Mingwei Yang. Streaming facility location in high dimension via geometric hashing. FOCS 2022.

图文 | 高贵晨
北京大学姜少峰课题组
姜少峰课题组近期动态


— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

点击“阅读原文”转论文地址
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢