MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks

2024年06月07日
  • 简介
    稀疏激活的专家混合(MoE)模型是传统密集激活(dense)模型的一种有前途的替代方案,可以提高质量和计算效率。然而,从头开始训练MoE模型需要大量的数据和计算资源。此外,像timm这样的公共存储库主要提供预训练的密集检查点,缺乏类似MoE模型的资源,阻碍了它们的采用。为了填补这一差距,我们引入了MoE Jetpack,这是一种有效的方法,可以将密集检查点微调为MoE模型。MoE Jetpack包括两个关键技术:(1)检查点回收,它将密集检查点重新用作MoE模型的初始权重,从而加速收敛,提高准确性,并减轻预训练的计算负担;(2)超球自适应MoE(SpheroMoE)层,它优化MoE架构以更好地集成密集检查点,提高微调性能。我们在视觉任务上的实验表明,MoE Jetpack在将密集检查点微调为MoE模型时显著提高了收敛速度和准确性。我们的代码将在https://github.com/Adlith/MoE-Jetpack上公开发布。
  • 图表
  • 解决问题
    本文旨在解决MoE模型训练需要大量数据和计算资源的问题,以及MoE模型缺乏预训练资源的问题。
  • 关键思路
    本文提出了MoE Jetpack方法,通过复用预训练的dense模型的checkpoint,结合使用SpheroMoE层来优化MoE模型的结构,从而在fine-tuning时加速收敛,提高准确率。
  • 其它亮点
    本文的实验结果表明,MoE Jetpack方法可以显著提高fine-tuning时的收敛速度和准确率。文章提供了开源代码,可在github上获取。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Mixture Models with Adversarial Training for Image Clustering》、《Mixture Density Networks with Box-Cox Transformation for Time Series Forecasting》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论