FedClust: Tackling Data Heterogeneity in Federated Learning through Weight-Driven Client Clustering

2024年07月09日
  • 简介
    联邦学习(FL)是一种新兴的分布式机器学习范例,它使得机器学习模型能够在分散的设备上进行协作训练,而不暴露它们的本地数据。FL面临的主要挑战之一是客户设备之间存在不均匀的数据分布,这违反了传统机器学习中独立同分布(IID)训练样本的假设。为了解决此类数据异构性所带来的性能降级问题,基于相似的本地数据分布将客户端分组的聚类联邦学习(CFL)表现出了其潜力。然而,最先进的CFL方法需要大量的通信轮数来学习训练期间的分布相似性,直到集群的形成稳定。此外,这些算法中的一些严重依赖于预定义的集群数量,从而限制了它们的灵活性和适应性。本文提出了一种新的CFL方法FedClust,它利用本地模型权重与客户端数据分布之间的相关性。FedClust通过测量局部训练模型的策略性选择的部分权重之间的相似度来一次性地将客户端分组成集群。我们在四个基准数据集上进行了大量实验,这些数据集具有不同的非IID数据设置。实验结果表明,与最先进的对手相比,FedClust实现了更高的模型精度,最高可达45%,并且收敛速度更快,通信成本显著降低了2.7倍。
  • 图表
  • 解决问题
    解决问题:论文旨在解决集中式机器学习中数据分布不均的问题,并提出一种新的聚类分布式学习方法。
  • 关键思路
    关键思路:论文提出了一种新的聚类分布式学习方法FedClust,通过局部模型权重与客户端数据分布的相关性来度量客户端之间的相似度,并将客户端分组,以解决数据分布不均的问题。
  • 其它亮点
    其他亮点:论文在四个基准数据集上进行了实验,证明了FedClust相比现有方法具有更高的模型准确性和更快的收敛速度,并且通信成本显著降低。作者还开源了实验代码。
  • 相关研究
    相关研究:目前在这个领域中,一些相关的研究包括“Federated Learning with Non-IID Data”,“Clustered Federated Learning: Model-Agnostic Distributed Machine Learning”,“Federated Learning on Non-IID Data Silos: An Experimental Study”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论