Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training

简介

本文提出了混合专家模型（MoE），该模型通过增加模型容量而保持计算成本恒定，从而获得了性能提升。在将MoE与密集模型进行比较时，以往的研究通常采用以下设置：1）使用FLOPs或激活参数作为模型复杂度的度量方式；2）将所有模型训练到相同数量的标记。我们认为这种设置有利于MoE，因为FLOPs和激活参数并不能准确地衡量稀疏层中的通信开销，从而导致MoE实际上需要更大的训练预算。在本文中，我们通过采用步骤时间作为更准确的模型复杂度度量方式，并在Chinchilla计算最优设置下确定总计算预算来重新审视这些设置。为了在现代加速器上高效运行MoE，我们采用了一种3D分片方法，该方法使密集型到MoE型的步骤时间增加保持在健康范围内。我们在三个模型规模（6.4B、12.6B和29.6B）上评估了MoE和密集型LLMs在九个0-shot和两个1-shot英语任务，以及MMLU 5-shot和GSM8K 8-shot上的表现。实验结果表明，即使在这些设置下，MoE在速度-准确性权衡曲线上仍然比密集型LLMs表现更好，且差距显著。我们的完整模型实现和分片策略将在\url{https://github.com/apple/axlearn}上发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在比较Mixture-of-Experts (MoE)和dense models在相同计算成本下的性能差异，挑战了现有的测量模型复杂度的方法。
关键思路

论文提出使用step time作为模型复杂度的更准确度量，并在Chinchilla计算最优设置下确定总计算预算。同时，采用3D分片方法实现MoE在现代加速器上的高效运行。
其它亮点

论文在9个0-shot和2个1-shot英语任务上评估了MoE和dense LLMs，以及在3个模型规模（6.4B，12.6B和29.6B）上的MMLU 5-shot和GSM8K 8-shot。实验结果表明，即使在这些设置下，MoE在速度-准确性权衡曲线上始终优于dense LLMs，并且有显著差距。论文的完整模型实现和分片策略将在https://github.com/apple/axlearn上发布。
相关研究

该领域的最新相关研究没有在摘要中提到。

Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training

提问交流

提问交流