From Sparse to Soft Mixtures of Experts

J Puigcerver, C Riquelme, B Mustafa, N Houlsby
[Google DeepMind]

从稀疏专家混合到软专家混合

  • 动机:解决稀疏混合专家模型(MoE)在训练不稳定、丢失标记、扩展专家数量困难和微调效果不佳等方面存在的问题。提出一种名为Soft MoE的全可微稀疏Transformer架构,克服这些挑战,并保持MoE的优势。
  • 方法:提出一种名为Soft MoE的全可微稀疏Transformer模型,采用隐式软分配方法,通过将所有输入标记的不同加权组合传递给每个专家来实现。Soft MoE避免了稀疏MoE核心的离散优化问题,实现更大的模型容量和更低的推理成本。
  • 优势:提出Soft MoE模型,在解决MoE存在的问题的同时,表现出色并在图像识别和图像-语言对比学习任务中明显优于标准Transformer和其他MoE变体,同时具有较低的推理成本和更好的性能。

提出Soft MoE,一种全可微稀疏Transformer架构,通过隐式软分配方法,克服了稀疏混合专家模型的训练和推理中的问题,并在图像识别任务中取得了显著的性能提升。

https://arxiv.org/abs/2308.00951 


图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除