FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition

简介

预训练语言模型（PLMs）在微调后在各种下游任务上表现出色。然而，围绕用户隐私的不断增长的关注对于依赖于大量数据收集的集中式训练提出了重大挑战。联邦学习是一种解决方案，它只需要在客户端上进行训练，并在服务器上聚合权重而不共享数据。然而，PLMs的实质参数大小给客户端设备的计算资源带来了巨大负担，同时也导致了昂贵的通信费用。将参数高效微调（PEFT）引入联邦学习可以有效解决这个问题。然而，我们观察到联邦学习中的非独立同分布数据导致PEFT方法和完全参数微调（FFT）之间的性能差距。为了克服这一问题，我们提出了FeDeRA，这是联邦学习中Low-Rank Adaption（LoRA）方法的改进。FeDeRA使用与LoRA相同的适配器模块。然而，不同之处在于FeDeRA通过对预先训练的矩阵执行奇异值分解（SVD）并选择其主要组件来初始化适配器模块。我们在六个数据集上使用RoBERTa和DeBERTaV3进行了广泛的实验，比较了包括FFT和另外三种不同的PEFT方法在内的方法。FeDeRA优于所有其他PEFT方法，并且与FFT方法的性能相当甚至超过。我们还在Jetson AGX Orin上部署了联邦学习，并比较了不同方法在特定任务上实现目标准确性所需的时间。与FFT相比，FeDeRA在使用RoBERTa和DeBERTaV3进行的三个任务上分别将训练时间缩短了95.9\％，97.9\％，96.9\％和97.3\％，96.5\％，96.5\％。总体实验表明，FeDeRA在保持效率的同时实现了良好的性能。
图表
解决问题

本文旨在解决PLMs在面临用户隐私问题时，使用分散式学习进行fine-tuning的计算资源和通讯成本过高的问题。同时，该文也试图解决在分散式学习中非独立同分布数据导致的PEFT方法和FFT方法之间性能差距的问题。
关键思路

本文提出了FeDeRA方法，使用SVD对预训练矩阵进行初始化，以在federated learning中提高PEFT方法的性能。该方法使用与LoRA相同的adapter模块，但是通过选择预训练矩阵的主要成分来初始化适配器模块，以更好地适应非独立同分布的数据。实验结果表明，FeDeRA方法在多个数据集上的性能均优于其他PEFT方法，并且与FFT方法相当甚至更好。
其它亮点

本文的亮点包括提出了FeDeRA方法，该方法使用SVD对预训练矩阵进行初始化，以提高PEFT方法在federated learning中的性能；在RoBERTa和DeBERTaV3上进行了广泛的实验，并比较了多种方法的性能；在Jetson AGX Orin上部署了federated learning，并比较了不同方法在特定任务上实现目标准确性所需的时间；实验结果表明，FeDeRA方法在多个数据集上的性能均优于其他PEFT方法，并且与FFT方法相当甚至更好。
相关研究

与本文相关的研究包括使用分散式学习进行fine-tuning的其他方法，如FedAvg、FedProx等。也有一些研究探讨如何在计算资源有限的情况下进行PLMs的fine-tuning，如TinyBERT、DistilBERT等。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论