NEW

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs

Ling Team ,

Binwei Zeng ,

Chao Huang ,

Chao Zhang ,

Changxin Tian ,

Cong Chen ,

Dingnan Jin ,

Feng Yu ,

Feng Zhu ,

Feng Yuan ,

Fakang Wang ,

Gangshan Wang ,

Guangyao Zhai ,

Haitao Zhang ,

Huizhong Li ,

Jun Zhou ,

Jia Liu ,

Junpeng Fang ,

Junjie Ou ,

Jun Hu ,

Ji Luo ,

Ji Zhang ,

Jian Liu ,

Jian Sha ,

Jianxue Qian ,

Jiewei Wu ,

Junping Zhao ,

Jianguo Li ,

Jubao Feng ,

Jingchao Di ,

Junming Xu ,

Jinghua Yao ,

Kuan Xu ,

Kewei Du ,

Longfei Li ,

Lei Liang ,

Lu Yu ,

Li Tang ,

Lin Ju ,

Peng Xu ,

Qing Cui ,

Song Liu ,

Shicheng Li ,

Shun Song ,

Song Yan ,

Tengwei Cai ,

Tianyi Chen ,

Ting Guo ,

Ting Huang ,

Tao Feng ,

Tao Wu ,

Wei Wu ,

Xiaolu Zhang ,

Xueming Yang ,

Xin Zhao ,

Xiaobo Hu ,

Xin Lin ,

Yao Zhao ,

Yilong Wang ,

Yongzhen Guo ,

Yuanyuan Wang ,

Yue Yang ,

Yang Cao ,

Yuhao Fu ,

Yi Xiong ,

Yanzhe Li ,

Zhe Li ,

Zhiqiang Zhang ,

Ziqi Liu ,

Zhaoxin Huan ,

Zujie Wen ,

Zhenhang Sun ,

Zhuoxuan Du ,

Zhengyu He

2025年03月07日

简介

在本技术报告中，我们针对训练大规模专家混合模型（MoE）所面临的挑战展开研究，重点解决此类系统中普遍存在的成本效率低下和资源限制问题。为应对这些挑战，我们推出了两款不同规模的 MoE 大语言模型（LLM），分别为 Ling-Lite 和 Ling-Plus（中文名“百灵”，拼音为 B\v{a}il\'ing）。Ling-Lite 拥有 168 亿参数，其中激活参数为 27.5 亿；而 Ling-Plus 则包含 2900 亿参数，激活参数达 288 亿。这两款模型的表现与行业领先的基准模型相当。本报告提供了实用的见解，旨在提升资源受限环境下人工智能开发的效率和可及性，推动更具扩展性和可持续性的技术发展。具体而言，为了降低大规模 MoE 模型的训练成本，我们提出了以下创新方法：(1) 优化模型架构和训练流程；(2) 改进训练异常处理机制；(3) 提高模型评估效率。此外，通过利用知识图谱生成的高质量数据，我们的模型在工具使用能力方面表现出比其他模型更强的优势。最终，实验结果表明，一款 3000 亿参数的 MoE 大语言模型可以在性能较低的设备上有效训练，并达到与同规模的密集模型和其他 MoE 模型相近的性能水平。相比高性能设备，在预训练阶段使用低规格硬件系统显著降低了成本，计算成本减少了约 20%。相关模型可通过以下链接获取：https://huggingface.co/inclusionAI。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

该论文旨在解决大规模Mixture of Experts (MoE) 模型训练过程中遇到的成本效率低下和资源限制问题。具体来说，它探讨了如何在较低性能的硬件设备上有效地训练大型语言模型（LLMs），同时保持与高性能设备训练出的模型相媲美的性能。
关键思路

论文提出通过优化模型架构和训练过程、改进训练异常处理以及提升模型评估效率等创新方法来降低成本。此外，通过利用从知识图谱生成的高质量数据，增强了模型在工具使用方面的能力。这种做法不仅提高了资源受限环境下的AI开发效率，还促进了更可持续的技术发展。
其它亮点

1. 提出了两种不同规模的MoE LLMs：Ling-Lite（168亿参数）和Ling-Plus（2900亿参数），后者在较低性能硬件上实现了显著的成本节约（约20%）。2. 实验设计包括对比高、低性能设备上的预训练效果，并展示了两者之间的性能可比性。3. 数据集来自知识图谱，确保了数据质量和多样性。4. 开源代码已发布在Hugging Face平台，便于后续研究和技术应用。5. 强调了在资源有限的情况下实现高效AI开发的重要性，鼓励更多关于MoE模型优化的研究。
相关研究

近期相关研究还包括：1. 'Efficient Training of Mixture-of-Experts with Sparse Activation' - 探讨了稀疏激活技术对MoE模型的影响；2. 'Scalable and Efficient Training of Large-Scale Neural Networks on Commodity Hardware' - 研究了普通硬件上大规模神经网络的高效训练策略；3. 'Knowledge Graph Enhanced Language Models for Improved Tool Use' - 分析了知识图谱增强的语言模型在工具使用方面的优势。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问