- 简介稀疏激活的专家混合(MoE)模型是传统密集激活(dense)模型的一种有前途的替代方案,可以提高质量和计算效率。然而,从头开始训练MoE模型需要大量的数据和计算资源。此外,像timm这样的公共存储库主要提供预训练的密集检查点,缺乏类似MoE模型的资源,阻碍了它们的采用。为了填补这一差距,我们引入了MoE Jetpack,这是一种有效的方法,可以将密集检查点微调为MoE模型。MoE Jetpack包括两个关键技术:(1)检查点回收,它将密集检查点重新用作MoE模型的初始权重,从而加速收敛,提高准确性,并减轻预训练的计算负担;(2)超球自适应MoE(SpheroMoE)层,它优化MoE架构以更好地集成密集检查点,提高微调性能。我们在视觉任务上的实验表明,MoE Jetpack在将密集检查点微调为MoE模型时显著提高了收敛速度和准确性。我们的代码将在https://github.com/Adlith/MoE-Jetpack上公开发布。
- 图表
- 解决问题本文旨在解决MoE模型训练需要大量数据和计算资源的问题,以及MoE模型缺乏预训练资源的问题。
- 关键思路本文提出了MoE Jetpack方法,通过复用预训练的dense模型的checkpoint,结合使用SpheroMoE层来优化MoE模型的结构,从而在fine-tuning时加速收敛,提高准确率。
- 其它亮点本文的实验结果表明,MoE Jetpack方法可以显著提高fine-tuning时的收敛速度和准确率。文章提供了开源代码,可在github上获取。
- 最近在这个领域中,还有一些相关的研究,如《Mixture Models with Adversarial Training for Image Clustering》、《Mixture Density Networks with Box-Cox Transformation for Time Series Forecasting》等。
沙发等你来抢
去评论
评论
沙发等你来抢