The Future of Large Language Model Pre-training is Federated

简介

生成式预训练大型语言模型（LLM）已经展示出在各种任务上令人印象深刻的表现，这要归功于它们所训练的前所未有的大量数据。正如已经确定的缩放定律所示，LLM未来的性能提升取决于它们可以利用的计算和数据资源的数量。联邦学习（FL）有潜力释放大多数地球上未被利用的数据和计算资源，这些资源在当前LLM实践的数据中心集中培训方法中被低估了。我们的工作提出了一种强大、灵活、可重复的FL方法，可以跨机构进行大规模协作来训练LLM。我们提出了一种可扩展的部署系统，称为Photon，以便于调查和开发这种新的LLM预训练训练范式。我们展示了Photon可以被有兴趣与其私有数据源和计算资源合作进行十亿参数LLM预训练的组织使用。这种范式将动员更多的计算和数据资源，同时匹配或潜在地超越集中式性能。我们进一步展示了联邦训练的有效性随着模型规模的增大而增强，并展示了我们用有限资源训练十亿规模联邦LLM的方法。最后，我们展示了LLM训练对联邦统计和硬件异构的经典挑战具有高度的韧性。此外，我们展示了收敛对部分参与是具有鲁棒性的，为计算效率高的协作训练打开了道路。Photon将帮助数据丰富的参与者成为LLM预训练的主角，而不是只留给计算丰富的参与者。
图表
解决问题

使用联邦学习（FL）为大型语言模型（LLMs）进行预训练，以便更好地利用全球的计算和数据资源。
关键思路

提出了一个可扩展的部署系统Photon，以支持机构间的大规模协作，训练拥有数十亿个参数的LLMs。Photon可以解决联邦学习中的统计和硬件异质性问题，并且收敛性对于部分参与也是鲁棒的。
其它亮点

论文展示了使用Photon进行联邦学习预训练LLMs的可行性，并且实验表明，联邦学习的效果随着模型规模的增大而提高。论文还开源了Photon系统，使得更多的机构可以参与到LLMs的预训练中来。
相关研究

最近的相关研究包括《Federated Learning: Strategies for Improving Communication Efficiency》、《Federated Learning with Non-IID Data》等。

The Future of Large Language Model Pre-training is Federated

评论