UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

2026年05月07日
  • 简介
    现代混合专家(MoE)架构通过一种刚性的每层规则来分配专家容量:每个Transformer层各自拥有独立的专家集合。这一惯例将模型深度扩展与专家参数的线性增长紧密耦合,并隐含假设每一层均需独占式的专家容量。然而,近期多项分析以及我们所开展的路由探测实验共同挑战了这一分配规则:在多个已投入生产的MoE模型中,若将某深层的已训练top-k路由器替换为均匀随机路由,下游任务准确率仅下降1.0–1.6个百分点。受此冗余现象启发,我们提出UniPool——一种将专家容量视为全局性架构预算的MoE架构:它摒弃逐层专属专家的设计,转而构建一个单一、共享的专家池,各层路由器可独立访问该池。为保障共享机制下的训练稳定性与负载均衡性,我们引入一种面向整个专家池的辅助损失函数(pool-level auxiliary loss),以均衡全池范围内各专家的利用率;同时采用NormRouter,实现对共享专家池的稀疏化、尺度稳定型路由。我们在Pile数据集的300亿词元上,针对五种基于LLaMA架构的不同规模模型(参数量分别为1.82亿、4.69亿、6.50亿、8.30亿和9.78亿)开展了系统性训练与评估。结果表明,UniPool在所有规模下均持续优于对应的基础MoE基线模型,验证集损失与困惑度(perplexity)均显著降低;其中,验证集损失相较基础MoE最高可降低0.0386(相对值)。除单纯提升损失指标外,我们的研究进一步揭示:专家池规模本身即是一个显式的深度缩放超参数。具体而言,若干精简版UniPool变体仅使用原基础MoE专家参数预算的41.6%–66.7%,却仍能在全部测试规模上达到或超越逐层式MoE的性能。这表明,在共享池设计范式下,专家参数无需随模型深度线性增长;相反,其可采用亚线性方式增长,同时保持比基础MoE更高的参数效率与建模效能。进一步分析还证实,UniPool的优势可与更细粒度的专家分解方法协同叠加,产生复合增益。
  • 作者讲解
  • 图表
  • 解决问题
    传统MoE架构强制每层独占一组专家,导致专家参数随模型深度线性增长,隐含假设是各层需完全独立的专家容量;本文质疑该刚性分配规则的有效性与必要性,并验证其存在显著冗余——深层路由可被随机化而仅造成微小精度下降(1.0–1.6点),表明跨层共享专家容量在理论上可行且未被探索。
  • 关键思路
    提出UniPool:将专家视为全局可复用资源池(而非每层私有集合),所有层通过独立路由器稀疏访问同一共享专家池;为保障训练稳定性与公平利用,引入池级辅助损失(pool-level auxiliary loss)和NormRouter(提供尺度鲁棒、稀疏的路由)。核心新意在于解耦深度扩展与专家数量增长,首次将专家池大小显式建模为可调的深度缩放超参。
  • 其它亮点
    在5个LLaMA风格模型规模(182M–978M)上,基于The Pile 30B tokens完成完整训练,UniPool一致降低验证loss(最高相对减少0.0386)和困惑度;关键发现:仅用41.6%–66.7%原始专家参数的缩减池UniPool仍优于基线,证明专家参数可亚线性扩展;消融证实收益可与细粒度专家分解(如expert splitting)正交叠加;论文未提代码开源状态,但实验设计严谨(控制变量、多尺度、生产级MoE模型验证),为MoE参数效率范式提供新基准。
  • 相关研究
    Switch Transformers (Fedus et al., 2022); GLaM (Du et al., 2022); Top-k Routing with Load Balancing (Shazeer et al., 2017); DeepSpeed-MoE (Microsoft, 2022); Expert Choice Routing (Zhou et al., 2024); Beyond Sparsity: Dense MoE Training (Liu et al., 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问