Google DeepMind｜从稀疏专家混合到软专家混合

From Sparse to Soft Mixtures of Experts

J Puigcerver, C Riquelme, B Mustafa, N Houlsby
[Google DeepMind]

从稀疏专家混合到软专家混合

动机：解决稀疏混合专家模型(MoE)在训练不稳定、丢失标记、扩展专家数量困难和微调效果不佳等方面存在的问题。提出一种名为Soft MoE的全可微稀疏Transformer架构，克服这些挑战，并保持MoE的优势。
方法：提出一种名为Soft MoE的全可微稀疏Transformer模型，采用隐式软分配方法，通过将所有输入标记的不同加权组合传递给每个专家来实现。Soft MoE避免了稀疏MoE核心的离散优化问题，实现更大的模型容量和更低的推理成本。
优势：提出Soft MoE模型，在解决MoE存在的问题的同时，表现出色并在图像识别和图像-语言对比学习任务中明显优于标准Transformer和其他MoE变体，同时具有较低的推理成本和更好的性能。

提出Soft MoE，一种全可微稀疏Transformer架构，通过隐式软分配方法，克服了稀疏混合专家模型的训练和推理中的问题，并在图像识别任务中取得了显著的性能提升。

内容中包含的图片若涉及版权问题，请及时与我们联系删除