Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training

2024年05月23日
  • 简介
    本文提出了混合专家模型(MoE),该模型通过增加模型容量而保持计算成本恒定,从而获得了性能提升。在将MoE与密集模型进行比较时,以往的研究通常采用以下设置:1)使用FLOPs或激活参数作为模型复杂度的度量方式;2)将所有模型训练到相同数量的标记。我们认为这种设置有利于MoE,因为FLOPs和激活参数并不能准确地衡量稀疏层中的通信开销,从而导致MoE实际上需要更大的训练预算。在本文中,我们通过采用步骤时间作为更准确的模型复杂度度量方式,并在Chinchilla计算最优设置下确定总计算预算来重新审视这些设置。为了在现代加速器上高效运行MoE,我们采用了一种3D分片方法,该方法使密集型到MoE型的步骤时间增加保持在健康范围内。我们在三个模型规模(6.4B、12.6B和29.6B)上评估了MoE和密集型LLMs在九个0-shot和两个1-shot英语任务,以及MMLU 5-shot和GSM8K 8-shot上的表现。实验结果表明,即使在这些设置下,MoE在速度-准确性权衡曲线上仍然比密集型LLMs表现更好,且差距显著。我们的完整模型实现和分片策略将在\url{https://github.com/apple/axlearn}上发布。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在比较Mixture-of-Experts (MoE)和dense models在相同计算成本下的性能差异,挑战了现有的测量模型复杂度的方法。
  • 关键思路
    论文提出使用step time作为模型复杂度的更准确度量,并在Chinchilla计算最优设置下确定总计算预算。同时,采用3D分片方法实现MoE在现代加速器上的高效运行。
  • 其它亮点
    论文在9个0-shot和2个1-shot英语任务上评估了MoE和dense LLMs,以及在3个模型规模(6.4B,12.6B和29.6B)上的MMLU 5-shot和GSM8K 8-shot。实验结果表明,即使在这些设置下,MoE在速度-准确性权衡曲线上始终优于dense LLMs,并且有显著差距。论文的完整模型实现和分片策略将在https://github.com/apple/axlearn上发布。
  • 相关研究
    该领域的最新相关研究没有在摘要中提到。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问