关键词大规模并行计算; 欧氏空间; k-Center

导  读

本文是对已被 ICALP 2025 接收的 Fully Scalable MPC Algorithms for Euclidean k-Center 一文的解读。该工作由北京大学姜少峰课题组与 University of Warwick 的 Artur Czumaj、MIT 的 Mohsen Ghaffari 合作完成,论文主要贡献者之一高贵晨为北京大学计算机学院博士生。


论文聚焦于大规模并行计算(Massively Parallel Computation, MPC)模型下欧氏空间中 k-Center 问题,分别在低维和高维的设定下设计了完全可扩展的常数轮 MPC 算法。

← 扫码跳转论文

论文地址:https://arxiv.org/abs/2504.16382


01

问题及背景

对大规模数据进行聚类是计算机科学中一项基本的计算任务,我们考虑欧氏空间下的 -Center 问题。给定一个包含  个数据点的集合 ,一个整数 -Center 问题是要找到一个大小至多为  的数据集合 ,使得所有  中的数据点到集合  中最近点的最大距离最小,即找到  并最小化

其中, 表示  点到  中最近点的欧氏距离。


MPC 模型最早由 Karloff、Suri 和 Vassilvitskii[1]于2010年提出,是并行计算中一种重要的模型,可以用来建模 Hadoop、Spark 等众多实际广泛应用的并行计算框架。在 MPC 模型中,设有  台机器,每台机器都有大小为  的内存。典型情况下,假定内存为  且常数 ,其中  是输入数据量的大小。此外,计算以同步轮进行,在每一轮中,任何一台机器都可以向/从任何其他机器发送/接收信息,前提是从/向每台机器传输的数据总量为 。MPC 算法的效率是通过轮数来衡量的,并且一般追求常数轮的算法。


除了轮数尽量追求常数轮,MPC 算法还应该是完全可扩展(Fully Scalable)的:即算法在任何内存参数  下都可以运行,尤其是对于 -Center 而言,需要满足  与  无关。目前针对 -Center 问题的完全可扩展的工作较少[2, 3],且仅限于低维欧氏空间下的结果。当前最好结果仅是 轮的-双标准近似[3],其中 -双标准近似是指算法输出至多 个中心点,且其代价至多是  个中心点的最优代价的  倍。因此,为 -Center 问题在低维和高维欧式空间下设计完全可扩展、常数轮、常数近似的 MPC 算法是该领域的挑战之一。


02

主要结果

针对欧氏空间(包括低维和高维)中的 -Center 问题,我们都得到了完全可扩展的常数轮 MPC 算法。在低维欧式空间中,我们设计了第一个常数轮、常数近似 -近似)的完全可扩展 MPC 算法。该结果在多个关键方面(包括通信轮数、近似比等)显著优于现有的低维 -Center 完全可扩展 MPC 算法[2, 3]。进一步地,如果允许双标准近似,我们可以改进 -近似:我们设计了一个 -近似的算法,该算法仅使用  个中心点。在高维欧式空间中,我们提出了首个常数轮、-近似的完全可扩展 MPC 算法。


03

技术概述

我们针对 -Center 问题所设计的算法,基于将其规约为几何版本的 Ruling Set(RS)和  Minimum Dominating Set(MDS)问题,而这两类问题是分布式计算中的基本问题。下面,我们将给出 RS 和 MDS 的定义、规约和结果,并重点概述高维 RS 的重要组成部分以及技术思想。


几何RS和MDS的规约和结果

 是参数,OPT 表示 -Center 问题的最优解的值。


几何 RS 和 MDS 的定义:对于集合  的子集 ,若对任意 ,有 ,则称  为  的 -独立集(τ-IS)。对于集合  ,若对任意  ,有  ,则称  为  的 -支配集(τ-DS)。若  同时是集合  的 -IS和 -DS,则称其为集合  的 -Ruling Set((τ,α)-RS)。一个 -MDS 集合是具有最少数据点的 -DS,记为 。一个相关的经典概念是极大独立集(MIS),其中 -MIS 是一种 -RS。


规约:已有研究表明(参见例如[4],若 ,则集合  的任何一个 -IS至多包含  个数据点。因此,一个能计算  的 -RS 的 MPC 算法,将产生数据集  上 -Center 问题的 -近似。另一方面,对于 MDS,若令 ,由于 -Center 的最优解自身就是一个 -MDS 的候选解,其大小最多为 ,所以对 -MDS 的 -近似将得到  个中心点。这种关系有助于获得 -Center 问题的双标准近似解。相比之下,RS 的设定要求解必须从数据集  中选取,因此仅能得到  近似;而 MDS 则可以在整个  上操作,这一点对于获得 -近似尤其关键,因为中心点必须从  中选择,而不仅限于数据集 


RS 和 MDS 的结果:我们在低维和高维设定下分别获得了关于 RS 和 MDS 的结果,如表1所示。结合前文所述的规约方法,这些结果自然地推出了 -Center 在低维和高维中的结果。所有结果均可在  轮内得到,这在典型设定  下是常数轮的,其中  为常数。

表1. RS 和 MDS 的结果,所有结果均可在  轮内得到


MIS、RS 和 MDS 是 MPC 中基础却非常具有挑战性的问题。已有的相关研究大多集中在(一般)图或一般度量空间上,并且这些研究所取得的界限往往不如我们的结果,例如,他们需要使用超常数轮数的算法[5-10],和/或不是完全可扩展的[9, 11, 12]。我们的结果似乎表明,这些问题在欧式空间中的表现与在图/一般度量空间中的表现非常不同。一方面,我们在低维和高维下都得到了完全可扩展的算法;但另一方面,我们的算法对于 MIS 和 MDS 来说仍然只是“近似解”,例如,在低维情况下,我们的 RS 和 MDS 结果对 MIS 和 MDS 的支配参数都有  的偏差。对于不违反支配参数的 RS/MIS 和 MDS,我们目前只知道一类关于增长有界图(growth-bounded graphs)的分布式计算研究(参见 Schneider 和 Wattenhofer 的工作[13]),其间接地实现了  轮的完全可扩展算法,用于低维欧式空间的 MIS/MDS 问题。目前仍未有在常数轮内解决 MIS 问题的完全可扩展算法,即使是在二维空间中也是如此。实际上,即使是在输入集合直径为  的二维空间中,该问题也是具有挑战性的。尽管如此,我们的 RS 和 MDS 的结果已经足够用于 -Center 问题的近似求解。


高维设定下的 RS

我们在高维空间中提出的 -RS 是对著名的 Luby 算法的改造。第一个改造点在于,与经典的 Luby 算法[14]需要运行  次迭代不同,我们的算法仅运行一次迭代的 Luby 算法:对于每个数据点 ,生成一个均匀随机值 ,然后对于每个,如果  在球体 (其中  代表数据集  与以  为中心、 为半径的球的交集)中具有最小的 值,则将其加入 RS 集合。该一次迭代的 Luby 算法能够以高概率产生 -RS。不过该结果仍比我们可以得到的 -RS 要差,并且上述一次迭代的 Luby 算法也未必可以直接用于欧氏空间。


基于几何哈希的预处理步骤:为了突破 ,我们需要在一次迭代 Luby 算法之前引入第二项重要的改造:一个基于几何哈希的预处理步骤。几何哈希通过将  中的数据点映射到离散的哈希桶中(即对空间进行划分),使得哈希值相同的点被分配到同一个桶。具体而言,在执行一次迭代的 Luby 算法之前,我们先对所有数据点应用几何哈希,将其分配到对应的桶中。我们使用的是一致哈希[15],其中每个桶的直径为 ,并且对于任意一个直径至多为  的子集合 ,与  相交的桶的数量最多为 。我们从每个非空桶中任选一个点组成集合 ,在该集合上运行一次迭代的 Luby 算法。显然,该哈希步骤仅会使支配参数最多增加 ,这是我们可以接受的量级。这种舍入(分桶)的主要目的是为了限制每个点的 -邻域的大小,这与图中点的度数是类似的。


04

总   结

本文探索了低维和高维欧式空间中 -Center 问题的完全可扩展的 MPC 算法。对于高维欧氏空间,尽管本文的研究给出了 -近似的 -Center,但是否存在完全可扩展的、常数近似的 -Center 依然是一个公开问题。


参考文献

[1] Howard J. Karloff, Siddharth Suri, and Sergei Vassilvitskii. A model of computation for MapReduce. SODA 2010.

[2] MohammadHossein Bateni, Hossein Esfandiari, Manuela Fischer, and Vahab S. Mirrokni. Extreme k-center clustering. AAAI 2021.

[3] Sam Coy, Artur Czumaj, and Gopinath Mishra. On parallel k-center clustering. SPAA 2023.

[4] Dorit S. Hochbaum and David B. Shmoys. A unified approach to approximation algorithms for bottleneck problems. Journal of the ACM 1986.

[5] Krzysztof Onak. Round compression for parallel graph algorithms in strongly sublinear space. arXiv 2018.

[6] Mohsen Ghaffari and Jara Uitto. Sparsifying distributed algorithms with ramifications in massively parallel computation and centralized local computation. SODA 2019.

[7] Mohsen Ghaffari, Christoph Grunau, and Ce Jin. Improved MPC algorithms for MIS, matching, and coloring on trees and beyond. DISC 2020.

[8] Chetan Gupta, Rustam Latypov, Yannic Maus, Shreyas Pai, Simo Särkkä, Jan Studený, Jukka Suomela, Jara Uitto, and Hossein Vahidi. Fast dynamic programming in trees in the MPC model. SPAA 2023.

[9] Jeff Giliberti and Zahra Parsaeian. Massively parallel ruling set made deterministic. DISC 2024.

[10] Hongyan Ji, Kishore Kothapalli, Sriram V. Pemmaraju, and Ajitanshu Singh. Fast deterministic massively parallel ruling sets algorithms. ICDCN 2025.

[11] Mélanie Cambus, Fabian Kuhn, Shreyas Pai, and Jara Uitto. Time and space optimal massively parallel algorithm for the 2-ruling set problem. DISC 2023.

[12] Alireza Haqi and Hamid Zarrabi-Zadeh. Almost optimal massively parallel algorithms for k-center clustering and diversity maximization. SPAA 2023.

[13] Johannes Schneider and Roger Wattenhofer. An optimal maximal independent set algorithm for bounded-independence graphs. Distributed Computing 2010.

[14] Michael Luby. A simple parallel algorithm for the maximal independent set problem. STOC 1985.

[15] Artur Czumaj, Arnold Filtser, Shaofeng H.-C. Jiang, Robert Krauthgamer, Pavel Veselý, and Mingwei Yang. Streaming facility location in high dimension via geometric hashing. FOCS 2022.


图文 | 高贵晨

PKU 姜少峰Lab



姜少峰博士,现任北京大学前沿计算研究中心助理教授、北京大学博雅青年学者,于2021年正式加入中心。他于2017年在香港大学获得博士学位,曾在以色列魏茨曼科学研究学院进行博士后研究,并曾在芬兰阿尔托大学任助理教授。他的研究方向为理论计算机科学,近期侧重于大数据算法及其在机器学习中的应用,并已在包括 STOC,FOCS,SICOMP,SODA,ICML,NeurIPS 等主流国际期刊和会议上发表论文多篇。



姜少峰Lab相关科研动态



—   版权声明  —

本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

阅读原文转论文链接

内容中包含的图片若涉及版权问题,请及时与我们联系删除