生成式预训练大型语言模型(LLM)已经展示出在各种任务上令人印象深刻的表现,这要归功于它们所训练的前所未有的大量数据。正如已经确定的缩放定律所示,LLM未来的性能提升取决于它们可以利用的计算和数据资源的数量。联邦学习(FL)有潜力释放大多数地球上未被利用的数据和计算资源,这些资源在当前LLM实践的数据中心集中培训方法中被低估了。我们的工作提出了一种强大、灵活、可重复的FL方法,可以跨机构进行大规模协作来训练LLM。我们提出了一种可扩展的部署系统,称为Photon,以便于调查和开发这种新的LLM预训练训练范式。我们展示了Photon可以被有兴趣与其私有数据源和计算资源合作进行十亿参数LLM预训练的组织使用。这种范式将动员更多的计算和数据资源,同时匹配或潜在地超越集中式性能。我们进一步展示了联邦训练的有效性随着模型规模的增大而增强,并展示了我们用有限资源训练十亿规模联邦LLM的方法。最后,我们展示了LLM训练对联邦统计和硬件异构的经典挑战具有高度的韧性。此外,我们展示了收敛对部分参与是具有鲁棒性的,为计算效率高的协作训练打开了道路。Photon将帮助数据丰富的参与者成为LLM预训练的主角,而不是只留给计算丰富的参与者。
提问交流