Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs

2025年03月07日
  • 简介
    在本技术报告中,我们针对训练大规模专家混合模型(MoE)所面临的挑战展开研究,重点解决此类系统中普遍存在的成本效率低下和资源限制问题。为应对这些挑战,我们推出了两款不同规模的 MoE 大语言模型(LLM),分别为 Ling-Lite 和 Ling-Plus(中文名“百灵”,拼音为 B\v{a}il\'ing)。Ling-Lite 拥有 168 亿参数,其中激活参数为 27.5 亿;而 Ling-Plus 则包含 2900 亿参数,激活参数达 288 亿。这两款模型的表现与行业领先的基准模型相当。本报告提供了实用的见解,旨在提升资源受限环境下人工智能开发的效率和可及性,推动更具扩展性和可持续性的技术发展。具体而言,为了降低大规模 MoE 模型的训练成本,我们提出了以下创新方法:(1) 优化模型架构和训练流程;(2) 改进训练异常处理机制;(3) 提高模型评估效率。此外,通过利用知识图谱生成的高质量数据,我们的模型在工具使用能力方面表现出比其他模型更强的优势。最终,实验结果表明,一款 3000 亿参数的 MoE 大语言模型可以在性能较低的设备上有效训练,并达到与同规模的密集模型和其他 MoE 模型相近的性能水平。相比高性能设备,在预训练阶段使用低规格硬件系统显著降低了成本,计算成本减少了约 20%。相关模型可通过以下链接获取:https://huggingface.co/inclusionAI。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文旨在解决大规模Mixture of Experts (MoE) 模型训练过程中遇到的成本效率低下和资源限制问题。具体来说,它探讨了如何在较低性能的硬件设备上有效地训练大型语言模型(LLMs),同时保持与高性能设备训练出的模型相媲美的性能。
  • 关键思路
    论文提出通过优化模型架构和训练过程、改进训练异常处理以及提升模型评估效率等创新方法来降低成本。此外,通过利用从知识图谱生成的高质量数据,增强了模型在工具使用方面的能力。这种做法不仅提高了资源受限环境下的AI开发效率,还促进了更可持续的技术发展。
  • 其它亮点
    1. 提出了两种不同规模的MoE LLMs:Ling-Lite(168亿参数)和Ling-Plus(2900亿参数),后者在较低性能硬件上实现了显著的成本节约(约20%)。2. 实验设计包括对比高、低性能设备上的预训练效果,并展示了两者之间的性能可比性。3. 数据集来自知识图谱,确保了数据质量和多样性。4. 开源代码已发布在Hugging Face平台,便于后续研究和技术应用。5. 强调了在资源有限的情况下实现高效AI开发的重要性,鼓励更多关于MoE模型优化的研究。
  • 相关研究
    近期相关研究还包括:1. 'Efficient Training of Mixture-of-Experts with Sparse Activation' - 探讨了稀疏激活技术对MoE模型的影响;2. 'Scalable and Efficient Training of Large-Scale Neural Networks on Commodity Hardware' - 研究了普通硬件上大规模神经网络的高效训练策略;3. 'Knowledge Graph Enhanced Language Models for Improved Tool Use' - 分析了知识图谱增强的语言模型在工具使用方面的优势。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问