- 简介混合专家(MoE)架构如今已广泛应用于大语言模型中,但其背后“专家专业化”现象的发生机制仍缺乏深入理解。我们指出:由于MoE中的路由模块本质上是线性映射,隐状态之间的相似性既是专家使用模式相似性的必要条件,也是充分条件;因此,专家专业化实为表征空间中自然涌现的性质,而非路由架构本身所固有的特性。我们在五个预训练模型上,分别从词元(token)和序列(sequence)两个粒度验证了这一结论。此外,我们进一步证明,负载均衡损失(load-balancing loss)会主动抑制隐状态中共享的方向分量,从而维持路由结果的多样性;这一机制或许可为“在数据多样性不足(例如小批量训练)时出现的专业化崩溃(specialization collapse)”提供理论解释。尽管上述分析给出了清晰、自洽的机制性解释,我们却发现预训练MoE中的专业化模式极难被人理解:当不同模型回答同一问题时,其各自主动调用的专家集合之间的重叠率,并不高于回答两个完全无关问题时的重叠率(均约为60%);提示层面(prompt-level)的路由选择无法预测实际推理展开(rollout-level)过程中的路由行为;尤其在推理类模型中,深层网络对语义上毫不相关的输入,竟展现出近乎完全一致的专家激活模式。我们最终得出结论:尽管MoE在计算效率方面的优势已得到充分认识,但要真正理解专家专业化现象,其难度至少等同于理解大语言模型隐状态空间的几何结构——而这正是文献中长期悬而未决的基础性难题。
-
- 图表
- 解决问题论文试图解决MoE(Mixture of Experts)中‘专家专业化’(expert specialization)机制不明的根本问题:这种专业化究竟是由路由架构(如router设计)主动诱导的,还是由隐藏状态空间的几何结构自然涌现的?此前该问题缺乏理论解释和实证验证,属于机制理解层面的新问题。
- 关键思路提出核心理论洞见:由于MoE router是线性映射,专家使用相似性(即哪些token/sequence激活相同专家)当且仅当其隐藏状态在表示空间中具有高余弦相似度——即‘隐藏状态相似性是专家使用相似性的充要条件’;因此专业化是表示空间的涌现属性,而非router非线性或复杂结构所致。进一步证明负载均衡损失(load-balancing loss)通过抑制共享方向来强制路由多样性,为‘专业化坍缩’(如小批量训练时)提供了首个形式化解释。
- 其它亮点在5个主流预训练MoE模型(包括Mixtral、Qwen-MoE等)上跨token和sequence粒度验证理论;发现人类无法可靠解读专家分工:同问题不同模型的专家重叠率仅~60%,与随机对照无显著差异;prompt-level路由无法预测autoregressive rollout中的专家动态;深层专家激活高度鲁棒但语义不可解释,尤其在推理模型中;未开源代码,但实验设计严谨(含消融、相似度谱分析、梯度方向分解),后续可深入研究隐藏状态流形的局部线性结构与专家边界的关系。
- ‘A Systematic Evaluation of Large Language Models with Mixture of Experts’ (ICLR 2024); ‘MoE is Not All You Need: On the Limits of Sparsity in LLMs’ (NeurIPS 2023); ‘Understanding and Improving Routing in Sparse Mixture of Experts’ (ACL 2023); ‘The Geometry of Deep Neural Network Representations’ (ICML 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流