The Myth of Expert Specialization in MoEs: Why Routing Reflects Geometry, Not Necessarily Domain Expertise

向作者提问

NEW

简介

混合专家（MoE）架构如今已广泛应用于大语言模型中，但其背后“专家专业化”现象的发生机制仍缺乏深入理解。我们指出：由于MoE中的路由模块本质上是线性映射，隐状态之间的相似性既是专家使用模式相似性的必要条件，也是充分条件；因此，专家专业化实为表征空间中自然涌现的性质，而非路由架构本身所固有的特性。我们在五个预训练模型上，分别从词元（token）和序列（sequence）两个粒度验证了这一结论。此外，我们进一步证明，负载均衡损失（load-balancing loss）会主动抑制隐状态中共享的方向分量，从而维持路由结果的多样性；这一机制或许可为“在数据多样性不足（例如小批量训练）时出现的专业化崩溃（specialization collapse）”提供理论解释。尽管上述分析给出了清晰、自洽的机制性解释，我们却发现预训练MoE中的专业化模式极难被人理解：当不同模型回答同一问题时，其各自主动调用的专家集合之间的重叠率，并不高于回答两个完全无关问题时的重叠率（均约为60%）；提示层面（prompt-level）的路由选择无法预测实际推理展开（rollout-level）过程中的路由行为；尤其在推理类模型中，深层网络对语义上毫不相关的输入，竟展现出近乎完全一致的专家激活模式。我们最终得出结论：尽管MoE在计算效率方面的优势已得到充分认识，但要真正理解专家专业化现象，其难度至少等同于理解大语言模型隐状态空间的几何结构——而这正是文献中长期悬而未决的基础性难题。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决MoE（Mixture of Experts）中‘专家专业化’（expert specialization）机制不明的根本问题：这种专业化究竟是由路由架构（如router设计）主动诱导的，还是由隐藏状态空间的几何结构自然涌现的？此前该问题缺乏理论解释和实证验证，属于机制理解层面的新问题。
关键思路

提出核心理论洞见：由于MoE router是线性映射，专家使用相似性（即哪些token/sequence激活相同专家）当且仅当其隐藏状态在表示空间中具有高余弦相似度——即‘隐藏状态相似性是专家使用相似性的充要条件’；因此专业化是表示空间的涌现属性，而非router非线性或复杂结构所致。进一步证明负载均衡损失（load-balancing loss）通过抑制共享方向来强制路由多样性，为‘专业化坍缩’（如小批量训练时）提供了首个形式化解释。
其它亮点

在5个主流预训练MoE模型（包括Mixtral、Qwen-MoE等）上跨token和sequence粒度验证理论；发现人类无法可靠解读专家分工：同问题不同模型的专家重叠率仅~60%，与随机对照无显著差异；prompt-level路由无法预测autoregressive rollout中的专家动态；深层专家激活高度鲁棒但语义不可解释，尤其在推理模型中；未开源代码，但实验设计严谨（含消融、相似度谱分析、梯度方向分解），后续可深入研究隐藏状态流形的局部线性结构与专家边界的关系。
相关研究

‘A Systematic Evaluation of Large Language Models with Mixture of Experts’ (ICLR 2024); ‘MoE is Not All You Need: On the Limits of Sparsity in LLMs’ (NeurIPS 2023); ‘Understanding and Improving Routing in Sparse Mixture of Experts’ (ACL 2023); ‘The Geometry of Deep Neural Network Representations’ (ICML 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问