MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks

简介

稀疏激活的专家混合（MoE）模型是传统密集激活（dense）模型的一种有前途的替代方案，可以提高质量和计算效率。然而，从头开始训练MoE模型需要大量的数据和计算资源。此外，像timm这样的公共存储库主要提供预训练的密集检查点，缺乏类似MoE模型的资源，阻碍了它们的采用。为了填补这一差距，我们引入了MoE Jetpack，这是一种有效的方法，可以将密集检查点微调为MoE模型。MoE Jetpack包括两个关键技术：（1）检查点回收，它将密集检查点重新用作MoE模型的初始权重，从而加速收敛，提高准确性，并减轻预训练的计算负担；（2）超球自适应MoE（SpheroMoE）层，它优化MoE架构以更好地集成密集检查点，提高微调性能。我们在视觉任务上的实验表明，MoE Jetpack在将密集检查点微调为MoE模型时显著提高了收敛速度和准确性。我们的代码将在https://github.com/Adlith/MoE-Jetpack上公开发布。
图表
解决问题

本文旨在解决MoE模型训练需要大量数据和计算资源的问题，以及MoE模型缺乏预训练资源的问题。
关键思路

本文提出了MoE Jetpack方法，通过复用预训练的dense模型的checkpoint，结合使用SpheroMoE层来优化MoE模型的结构，从而在fine-tuning时加速收敛，提高准确率。
其它亮点

本文的实验结果表明，MoE Jetpack方法可以显著提高fine-tuning时的收敛速度和准确率。文章提供了开源代码，可在github上获取。
相关研究

最近在这个领域中，还有一些相关的研究，如《Mixture Models with Adversarial Training for Image Clustering》、《Mixture Density Networks with Box-Cox Transformation for Time Series Forecasting》等。

MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks

评论