Decoupled Federated Learning on Long-Tailed and Non-IID data with Feature Statistics

简介

本文探讨了联邦学习在处理长尾和非独立同分布数据时所面临的挑战，尽管旨在增强数据安全和隐私保护，但面临着一种被忽视的情况，即尾部类别在少数客户端上分布稀疏，导致使用这些类别训练的模型在客户端聚合时被选中的概率较低，从而导致收敛速度较慢和模型性能较差。为了解决这个问题，我们提出了一个使用特征统计的两阶段解耦联邦学习框架（DFL-FS）。在第一阶段，服务器通过遮蔽本地特征统计聚类来估计客户端的类别覆盖分布，以选择模型进行聚合，加速收敛并增强特征学习，同时不泄露隐私。在第二阶段，DFL-FS基于全局特征统计进行联邦特征重建，并利用重采样和加权协方差来校准全局分类器，增强模型对长尾数据分布的适应能力。我们在CIFAR10-LT和CIFAR100-LT数据集上进行了实验，结果表明，我们的方法在准确性和收敛速度方面均优于现有的最先进方法。
图表
解决问题

本文试图解决在异构数据分布的情况下，tail类别稀疏分布在少数客户端中，导致模型性能下降和收敛速度变慢的问题。
关键思路

提出了一个两阶段的Decoupled Federated Learning框架，使用Feature Statistics来解决这个问题。第一阶段，服务器通过掩码本地特征统计聚类来估计客户端的类别覆盖分布，以选择模型进行聚合，加速收敛并提高特征学习。第二阶段，DFL-FS基于全局特征统计进行联邦特征重建，并利用重新采样和加权协方差来校准全局分类器，以增强模型对长尾数据分布的适应性。
其它亮点

实验使用CIFAR10-LT和CIFAR100-LT数据集，结果表明，该方法在准确性和收敛速度方面优于现有的方法。
相关研究

最近的相关研究包括《FedAvg with Momentum for Non-IID Data》和《FedProx: Federated Optimization with Proximal Terms》等。

Decoupled Federated Learning on Long-Tailed and Non-IID data with Feature Statistics

评论