CG-FedLLM: How to Compress Gradients in Federated Fune-tuning for Large Language Models

2024年05月22日
  • 简介
    目前大型语言模型(LLMs)的成功取决于大量的训练数据,这些数据被集中收集和存储,称为集中式学习(CL)。然而,这种收集方式存在隐私威胁,一种潜在的解决方案是联邦学习(FL),它在客户端之间传输梯度而不是原始数据。与传统网络不同,LLMs的FL由于其巨大的参数而产生显着的通信成本。本研究介绍了一种创新的方法来压缩梯度,以提高LLM FL的通信效率,形成了新的FL流水线命名为CG-FedLLM。该方法在客户端上集成了一个编码器来获取压缩的梯度特征,并在服务器端上集成了一个解码器来重建梯度。我们还开发了一种新的训练策略,包括时间集成梯度感知预训练(TGAP),以识别目标模型的特征梯度,以及联邦自编码器涉及微调(FAF)以自适应地压缩梯度。广泛的实验证实,我们的方法减少了通信成本并提高了性能(例如,在一个公认的基准测试C-Eval上,与传统的CL和FL的基于LlaMA的微调相比,平均增加了3个点)。这种改进是因为我们的编码器-解码器通过TGAP和FAF训练,可以在选择性保留关键特征的同时过滤梯度。此外,我们还提供了一系列实验分析,重点关注隐私中心框架内的信噪比、压缩率和鲁棒性,为开发更高效、更安全的LLMs提供了见解。
  • 图表
  • 解决问题
    研究如何在保护隐私的前提下提高联邦学习中大型语言模型的通信效率和性能。
  • 关键思路
    通过在客户端引入编码器和在服务器端引入解码器的方式,将梯度进行压缩以提高通信效率,并使用Temporal-ensemble Gradient-Aware Pre-training (TGAP)和Federated AutoEncoder-Involved Fine-tuning (FAF)的训练策略来压缩梯度并提高性能。
  • 其它亮点
    论文提出了一种新的联邦学习流程CG-FedLLM,实现了对梯度的压缩,从而降低了通信成本,并提高了性能。实验结果表明,相比传统的中心化学习和联邦学习方法,使用CG-FedLLM可以获得更好的性能表现。论文还进行了一系列实验分析,探讨了信噪比、压缩率和鲁棒性等问题。
  • 相关研究
    最近的相关研究包括:《Secure and Efficient Federated Learning with Sparse Ternary Compression》、《Federated Learning with Non-IID Data: An Overview》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论