FeDeRA:Efficient Fine-tuning of Language Models in Federated Learning Leveraging Weight Decomposition

2024年04月29日
  • 简介
    预训练语言模型(PLMs)在微调后在各种下游任务中表现出色。然而,围绕用户隐私的不断增长的关注对于依赖大量数据收集的集中式训练提出了重大挑战。联邦学习(FL)是一种解决方案,它仅需要在客户端上进行训练,并在服务器上聚合权重而不共享数据。然而,PLMs的巨大参数大小对客户端设备的计算资源造成了重大负担,同时也导致昂贵的通信费用。将参数高效微调(PEFT)引入FL可以有效解决这个问题。但是,我们观察到联邦学习中的非IID数据导致PEFT方法和完全参数微调(FT)之间存在性能差距。为了克服这一问题,我们提出了FeDeRA,这是FL中LoRA方法的改进。FeDeRA使用与LoRA相同的适配器模块。然而,区别在于FeDeRA通过对预训练矩阵执行奇异值分解(SVD)并选择其主要成分来初始化适配器模块。我们在三个任务和六个数据集上使用RoBERTa和DeBERTaV3进行了广泛的实验,比较了包括FT和其他三种不同PEFT方法在内的方法。FeDeRA的表现优于所有其他PEFT方法,并且与FT方法的性能相当甚至超过。我们还在Jetson AGX Orin上部署了联邦学习,并比较了不同方法在特定任务上实现目标准确性所需的时间。与FT相比,FeDeRA在使用RoBERTa和DeBERTaV3的三个任务中分别将训练时间缩短了95.9%,97.9%,96.9%和97.3%,96.5%和96.5%。总体实验表明,FeDeRA在保持效率的同时实现了良好的性能。
  • 图表
  • 解决问题
    论文旨在解决PLMs在FL中存在的计算和通信成本高的问题,通过引入PEFT方法来解决这个问题。同时,论文还试图解决PEFT方法在FL中非IID数据导致的性能差异问题。
  • 关键思路
    论文提出了FeDeRA方法,通过在adapter模块初始化时使用SVD方法来选择主要的组件,从而提高PEFT方法在FL中的性能。
  • 其它亮点
    论文使用RoBERTa和DeBERTaV3在三个任务和六个数据集上进行了广泛的实验,比较了FT和其他三种PEFT方法。结果表明,FeDeRA方法在性能和效率方面均优于其他PEFT方法,并且与FT方法相当甚至更好。此外,论文还在Jetson AGX Orin上部署了FL,并比较了不同方法实现特定任务所需的时间。相比FT,FeDeRA在减少训练时间方面的效果非常显著。论文的亮点包括实验设计、使用的数据集以及开源代码等方面。
  • 相关研究
    在近期的相关研究中,也有一些关于FL中PLMs的性能和效率优化的研究。例如,一些研究致力于优化模型的压缩和剪枝方法,以减少模型的大小和计算成本。还有一些研究使用不同的方法来处理FL中的非IID数据问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论