

关键词:大规模并行计算, 高维欧式空间, 树嵌入
导 读
本文是对 SODA 2026 会议接收论文 Tree Embedding in High Dimensions: Dynamic and Massively Parallel 的解读。该工作由北京大学姜少峰课题组与维也纳大学的 Gramoz Goranci, Peter Kiss, Eva Szilagyi 合作完成。北京大学图灵班本科生孔启皓和钱易为该论文的主要贡献者。
论文聚焦于大规模并行计算(Massively Parallel Computation, MPC)模型下的树嵌入问题,提出了新的适用于一般度量空间的树嵌入框架,改进了动态模型与 MPC 模型下的树嵌入的结果,并针对大量经典问题设计了新的算法。

← 扫码跳转论文
论文地址:https://arxiv.org/abs/2510.22490
01
问题及背景
随机树嵌入(Probabilistic Tree Embedding)是一类基本的度量嵌入(Metric Embedding)技术,旨在将复杂的度量空间嵌入到随机的树度量空间中, 且保证嵌入的距离误差的期望尽可能小。 该技术首先被 Bartal 等人提出 [Bar96],随后 Fakcharoenphol 等人 [FRT04] 证明,任意
具体来说,树嵌入将任意
和 。
在高维欧式空间
这套基于树嵌入的方法也同时是亚线性计算模型下用来解决高维优化问题的有力工具, 尤其是数据流模型和大规模并行计算(Massively Parallel Computation, MPC)模型中。 然而,在这些模型上的树嵌入构造均未能实现
02
主要结果
本文的主要贡献是提出了一种新的适用于一般度量空间的树嵌入框架。该框架可以充分利用度量空间中的某种空间划分的性质,并且具体到欧氏空间上,可以结合已有的高效几何哈希(geometric hashing)技术来得到新的树嵌入算法,由此得到了动态模型与 MPC 模型下的树嵌入的改进的结果,同时衍生出大量经典问题的新算法。
欧式空间中的动态树嵌入
定理 1 设
其中
该动态树嵌入算法可直接应用于多种经典问题的动态近似求解中。基于该算法,本文推导出适用于 k-中位、欧氏最小权二分匹配(即推土机距离)、欧氏最小权一般匹配与几何传输距离的新动态算法。 例如,本文将定理 1与 [CALNF⁺21] 中给出的在树上的求解算法相结合,设计了一个新的动态 k-中位 算法。
推论 设
MPC 模型下的高维欧式空间树嵌入
本文的另一个主要贡献是:在 MPC 模型中实现了高维欧式空间的高效树嵌入。MPC 模型是一种并行计算模型,脱胎于 MapReduce 等主流大数据计算框架,在理论计算机科学中由 Karloff 等人 [KSV10] 率先进行了形式化定义。 在 MPC 模型中,
定理 2 设
算法的轮数为
03
技术概述
本文的树嵌入算法可以一般性地作用在任何一个给定的有界空间划分。这里,对于参数
(局部性)算法的核心需要调用一个局部性受
调控的子过程:计算半径为 的球与给定的 -有界划分相交的部分。 (误差)返回的树嵌入的误差是
的。
即,随着
技术上,我们的算法可以看作是经典的 CKR 分解 [CKR04] 框架在给定
作用在有界空间划分上的近似 CKR 分解
CKR 分解 [CKR04] 是一种随机空间划分技术。 考虑一般度量空间
生成随机映射
。 生成随机数
。 对于每个
,计算其标签 。
这些标签隐式定义了
然而,在 CKR 分解中要在度量球内找到
构造一个
-有界空间划分 。 尺度调整:
的取值改为从 中均匀随机选取。 对原始 CKR 算法的核心修改:将
,替换为 ,即使用某个近似的球 替代 。
粗略地说,为定义
我们最后可以证明该近似 CKR 分解的误差只会比原始 CKR 形成的树嵌入多一个
参考文献
[Bar96] Yair Bartal. Probabilistic approximation of metric spaces and its algorithmic applications. In Proceedings of 37th Conference on Foundations of Computer Science, pages 184–193. IEEE, 1996.
[FRT04] Jittat Fakcharoenphol, Satish Rao, and Kunal Talwar. A tight bound on approximating arbitrary metrics by tree metrics. J. Comput. Syst. Sci., 69(3):485–497, 2004.
[Tre00] Luca Trevisan. When hamming meets euclid: The approximability of geometric tsp and steiner tree. SIAM Journal on Computing, 30(2):475–485, 2000.
[ACKS15] Pranjal Awasthi, Moses Charikar, Ravishankar Krishnaswamy, and Ali Kemal Sinop. The hardness of approximation of euclidean k-means. arXiv preprint arXiv:1502.03316, 2015.
[CALNF⁺21] Vincent Cohen-Addad, Silvio Lattanzi, Ashkan Norouzi-Fard, Christian Sohler, and Ola Svensson. Parallel and efficient hierarchical k-median clustering. Advances in Neural Information Processing Systems, 34:20333–20345, 2021.
[KSV10] Howard J. Karloff, Siddharth Suri, and Sergei Vassilvitskii. A model of computation for MapReduce. In SODA, pages 938–948, 2010. doi:10.1137/1.9781611973075.76.
[AAH⁺23] AmirMohsen Ahanchi, Alexandr Andoni, Mohammad Taghi Hajiaghayi, Marina Knittel, and Peilin Zhong. Massively parallel tree embeddings for high dimensional spaces. In SPAA, pages 77–88. ACM, 2023.
[CJK⁺22] Artur Czumaj, Shaofeng H.-C. Jiang, Robert Krauthgamer, Pavel Vesely, and Mingwei Yang. Streaming facility location in high dimension via geometric hashing. In FOCS, pages 450–461. IEEE, 2022.

图文 | 孔启皓
PKU 姜少峰Lab
姜少峰博士,现任北京大学前沿计算研究中心助理教授、北京大学博雅青年学者,于2021年正式加入中心。他于2017年在香港大学获得博士学位,曾在以色列魏茨曼科学研究学院进行博士后研究,并曾在芬兰阿尔托大学任助理教授。他的研究方向为理论计算机科学,近期侧重于大数据算法及其在机器学习中的应用,并已在包括 STOC,FOCS,SICOMP,SODA,ICML,NeurIPS 等主流国际期刊和会议上发表论文多篇。
姜少峰Lab相关科研动态


— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

点“阅读原文”转论文链接
内容中包含的图片若涉及版权问题,请及时与我们联系删除



评论
沙发等你来抢