

关键词:局部搜索算法,近线性时间聚类
导 读
本文为 SODA 2026 会议接收论文 Local Search for Clustering in Almost-linear Time 的解读。该工作由北京大学姜少峰课题组与华为理论计算机实验室研究员金耀楠以及上海财经大学教授陆品燕合作完成。论文主要贡献者之一楼家宁是北京大学计算机学院博士生。
论文针对聚类问题提出了一种改进的局部搜索算法,能够在近线性时间内计算出常数近似解。特别地,在欧氏空间中,该算法实现了运行时间与近似比之间的最优权衡。

← 扫码跳转论文
论文地址:https://arxiv.org/abs/2504.03513
01
问题介绍
欧式空间中的
在欧氏空间中,一个自然的目标是实现 LSH 权衡,即在
02
主要结果
本文设计了一种新颖的局部搜索算法变体,在欧氏空间的
定理 1 对于任意常数
除
图最短路空间的聚类算法
我们的主要技术结果是一个针对图最短路径度量空间的快速聚类算法,如 定理 2 所示。定理 1 则是通过将 定理 2 直接应用于已有工作[HIS13]所构造的 spanner(即数据集的稀疏图表示)而得到的结果。
定理 2 存在一个针对图最短路度量空间的
该算法是首个针对图上
利用 spanner 技术,我们的算法可应用于多种度量空间,包括存在 LSH 的度量空间(如
03
技术贡献:高效的局部搜索算法
我们的算法是一种针对聚类问题的局部搜索(Local Search)算法的变体。局部搜索算法通常遵循如下的基本框架:从一个粗糙的初始解
不难发现,中心交换对的选取策略是影响局部搜索算法的时间复杂度的关键因素之一。先前的局部搜索算法均采用贪心策略,即选择能够最大幅度提升解质量的交换对
我们提出了一种新的中心交换对选取策略,该策略在选择过程中显式地将执行交换的时间代价纳入考量,从而成功突破了传统局部搜索算法的平方时间瓶颈。
聚类调整代价
为了更清晰地揭示贪心策略所面临的瓶颈,并说明我们新策略背后的核心思想,我们引入一个用于衡量局部搜索算法效率的中间指标,称为“聚类调整代价”(Clustering Recourse)。假设局部搜索算法除了维护当前解
维护一个聚类结构是合理且必要的:局部搜索算法需要依赖这一结构来判断每一次对解
先前的贪心选择策略无法控制聚类结构的更新次数。理论上,每次对
新的选取策略:强高效准则
为了突破传统贪心策略所面临的
可以证明,若局部搜索的每轮迭代都依据该强高效准则选取
上述讨论主要集中在“聚类调整代价”这一中间指标。要想在整体运行时间上真正突破平方级瓶颈,我们必须进一步构造一个能够高效维护聚类
参考文献
[ACKS15] Pranjal Awasthi, Moses Charikar, Ravishankar Krishnaswamy, and Ali Kemal Sinop. The hardness of approximation of euclidean k-means. In SoCG, volume 34 of LIPIcs, pages 754–767. Schloss Dagstuhl-Leibniz-Zentrum für Informatik, 2015.
[CFS21] Vincent Cohen-Addad, Andreas Emil Feldmann, and David Saulpic. Near-linear time approximation schemes for clustering in doubling metrics. J. ACM, 68(6):44:1–44:34, 2021.
[DSS24] Andrew Draganov, David Saulpic, and Chris Schwiegelshohn. Settling time vs. accuracy tradeoffs for clustering big data. Proc. ACM Manag. Data, 2(3):173, 2024.
[HIS13] Sariel Har-Peled, Piotr Indyk, and Anastasios Sidiropoulos. Euclidean spanners in high dimensions. In SODA, pages 804–809. SIAM, 2013.
[HM04] Sariel Har-Peled and Soham Mazumdar. On coresets for k-means and k-median clustering. In STOC, pages 291–300. ACM, 2004.
[LS19] Silvio Lattanzi and Christian Sohler. A better k-means++ algorithm via local search. In ICML, volume 97 of Proceedings of Machine Learning Research, pages 3662–3671. PMLR, 2019.
[lTS25] Max Dupré la Tour and David Saulpic. Faster and Simpler Greedy Algorithm for k-Median and k-Means. CoRR, abs/2407.11217, 2025.
[MP04] Ramgopal R. Mettu and C. Greg Plaxton. Optimal time bounds for approximate clustering. Mach. Learn., 56(1-3):35–60, 2004.
[Tho04] Mikkel Thorup. Quick k-median, k-center, and facility location for sparse graphs. SIAM J. Comput., 34(2):405–432, 2004.

图文 | 楼家宁
PKU 姜少峰Lab
姜少峰博士,现任北京大学前沿计算研究中心助理教授、北京大学博雅青年学者,于2021年正式加入中心。他于2017年在香港大学获得博士学位,曾在以色列魏茨曼科学研究学院进行博士后研究,并曾在芬兰阿尔托大学任助理教授。他的研究方向为理论计算机科学,近期侧重于大数据算法及其在机器学习中的应用,并已在包括 STOC,FOCS,SICOMP,SODA,ICML,NeurIPS 等主流国际期刊和会议上发表论文多篇。
姜少峰Lab相关科研动态

SODA 2026 | 大规模并行计算下的高维动态树嵌入算法
ICML 2025 | k-Center问题——基于数据约简的高效近似算法

— 版权声明 —
本微信公众号所有内容,由北京大学前沿计算研究中心微信自身创作、收集的文字、图片和音视频资料,版权属北京大学前沿计算研究中心微信所有;从公开渠道收集、整理及授权转载的文字、图片和音视频资料,版权属原作者。本公众号内容原作者如不愿意在本号刊登内容,请及时通知本号,予以删除。

点“阅读原文”转论文链接
内容中包含的图片若涉及版权问题,请及时与我们联系删除



评论
沙发等你来抢