The Future of Large Language Model Pre-training is Federated

Lorenzo Sani ,
Alex Iacob ,
Zeyu Cao ,
Bill Marino ,
Yan Gao ,
Tomas Paulik ,
Wanru Zhao ,
William F. Shen ,
Preslav Aleksandrov ,
Xinchi Qiu ,
Nicholas D. Lane
2024年05月17日
  • 简介
    生成式预训练大型语言模型(LLM)已经展示出在各种任务上令人印象深刻的表现,这要归功于它们所训练的前所未有的大量数据。正如已经确定的缩放定律所示,LLM未来的性能提升取决于它们可以利用的计算和数据资源的数量。联邦学习(FL)有潜力释放大多数地球上未被利用的数据和计算资源,这些资源在当前LLM实践的数据中心集中培训方法中被低估了。我们的工作提出了一种强大、灵活、可重复的FL方法,可以跨机构进行大规模协作来训练LLM。我们提出了一种可扩展的部署系统,称为Photon,以便于调查和开发这种新的LLM预训练训练范式。我们展示了Photon可以被有兴趣与其私有数据源和计算资源合作进行十亿参数LLM预训练的组织使用。这种范式将动员更多的计算和数据资源,同时匹配或潜在地超越集中式性能。我们进一步展示了联邦训练的有效性随着模型规模的增大而增强,并展示了我们用有限资源训练十亿规模联邦LLM的方法。最后,我们展示了LLM训练对联邦统计和硬件异构的经典挑战具有高度的韧性。此外,我们展示了收敛对部分参与是具有鲁棒性的,为计算效率高的协作训练打开了道路。Photon将帮助数据丰富的参与者成为LLM预训练的主角,而不是只留给计算丰富的参与者。
  • 图表
  • 解决问题
    使用联邦学习(FL)为大型语言模型(LLMs)进行预训练,以便更好地利用全球的计算和数据资源。
  • 关键思路
    提出了一个可扩展的部署系统Photon,以支持机构间的大规模协作,训练拥有数十亿个参数的LLMs。Photon可以解决联邦学习中的统计和硬件异质性问题,并且收敛性对于部分参与也是鲁棒的。
  • 其它亮点
    论文展示了使用Photon进行联邦学习预训练LLMs的可行性,并且实验表明,联邦学习的效果随着模型规模的增大而提高。论文还开源了Photon系统,使得更多的机构可以参与到LLMs的预训练中来。
  • 相关研究
    最近的相关研究包括《Federated Learning: Strategies for Improving Communication Efficiency》、《Federated Learning with Non-IID Data》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论