30年历史回顾，Jeff Dean：我们整理了一份「稀疏专家模型」研究综述

稀疏专家模型是一个已有 30 年历史的概念，至今依然被广泛使用，是深度学习中的流行架构。此类架构包括混合专家系统（MoE）、Switch Transformer、路由网络、BASE 层等。稀疏专家模型已经在自然语言处理、计算机视觉和语音识别等多个领域展示出良好的性能。

近日，谷歌 AI 负责人 Jeff Dean 等人撰写了一篇稀疏专家模型的综述，回顾了稀疏专家模型的概念，提供了通用算法的基本描述，最后展望了未来的研究方向。