FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models

2024年06月07日
  • 简介
    联邦学习已经使得多个参与方能够在不直接共享数据的情况下协同训练大型语言模型(FedLLM)。在这种训练范式下,社区从框架、性能和隐私等多个方面投入了大量的努力。然而,一个不愉快的事实是,目前没有适用于FedLLM的真实数据集和基准测试,以前的研究都依赖于人工构建的数据集,无法捕捉真实世界场景中的特性。为了解决这个问题,我们提出了FedLLM-Bench,它包括8种训练方法、4种训练数据集和6种评估指标,为FedLLM社区提供了一个全面的测试平台。FedLLM-Bench包括三个数据集(例如用户注释的多语言数据集)用于联邦指令调整,以及一个数据集(例如用户注释的偏好数据集)用于联邦偏好对齐,客户端数量的规模范围从38到747。我们的数据集包含了几个典型的多样性:语言、质量、数量、指令、长度、嵌入和偏好,捕捉了真实世界场景中的特性。基于FedLLM-Bench,我们对所有数据集进行实验,以评估现有的FL方法并提供经验见解(例如多语言协作)。我们相信,我们的FedLLM-Bench可以通过减少所需的努力、提供实际的测试平台和促进公平的比较来惠及FedLLM社区。代码和数据集可在https://github.com/rui-ye/FedLLM-Bench获得。
  • 图表
  • 解决问题
    论文旨在为FedLLM社区提供现实数据集和基准测试,以促进公平比较和实验设计。
  • 关键思路
    FedLLM-Bench是一个包含8种训练方法、4个训练数据集和6个评估指标的综合测试平台,其中包括用户注释的多语言数据集和用户注释的偏好数据集。
  • 其它亮点
    论文提供了一个实用的测试平台和公开的数据集,以促进FedLLM的发展。实验结果提供了一些有用的见解,如多语言协作等。
  • 相关研究
    最近的相关研究包括联邦学习、大语言模型和隐私保护等方面的工作。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论