- 简介我们提出了Chain-of-Experts(CoE),这是一种新的Mixture-of-Experts(MoE)架构,其在每一层中引入了专家之间的顺序通信。不同于传统MoE模型中专家并行独立运作的方式,CoE在每一层内部通过一个专家链依次处理标记(token)。为了支持在不同迭代步骤中动态选择不同的专家,CoE在每一层的每一步迭代中都使用了一个专门的路由机制(router)。这种设计使得标记可以在每次迭代时重新评估并选择不同的专家,而不是被静态分配。因此,CoE引入了一种灵活的路由机制,增加了专家组合的多样性,并增强了模型的表达能力。在计算资源固定的情况下,CoE展现了更优的性能:在数学推理任务上,相比标准MoE模型,验证损失从1.20降低到了1.12。除了性能提升之外,CoE还提供了一种新的扩展维度——通过专家迭代实现的“深度”扩展,这补充了传统的宽度/深度扩展方式。例如,使用2倍的迭代次数即可达到3倍专家选择(在宽度上)的性能水平,同时相比其他扩展策略,内存使用减少了17.6%到42%。我们的分析表明,CoE的优势来源于其迭代残差结构以及通过迭代路由机制所增强的专家专业化能力,这两者共同释放了更具表现力的模型潜力。代码地址为 https://github.com/ZihanWang314/coe。
- 图表
- 解决问题论文旨在解决传统Mixture-of-Experts(MoE)架构中专家并行处理导致的表示能力受限问题,探索如何在固定计算资源下提升模型性能,并提供新的扩展方向。
- 关键思路提出Chain-of-Experts(CoE)架构,在每一层内部引入按顺序迭代通信的专家链。每个迭代步骤使用独立的路由机制动态选择不同的专家,从而增强专家组合的多样性与模型表达能力。
- 其它亮点{在数学推理任务上,相比标准MoE模型,验证损失从1.20降低到1.12。,引入“深度通过迭代”的新扩展维度,2倍迭代可达到3倍专家宽度的效果,同时减少17.6%-42%内存使用。,实验分析表明,CoE的优势来源于其迭代残差结构和通过动态路由实现的更强专家专业化。,代码已开源:https://github.com/ZihanWang314/coe}
- {"Switch Transformers: Scaling to Trillion Parameter Models with Simple Yet Efficient Expert Routing","GLaM: Efficient Scaling of Language Models with Mixture-of-Experts","DeepSeek-NExT: A Modular Architecture for Efficient and Effective Large Language Models","Efficiently Scaling Up Vision Models via Iterative Mixture-of-Experts"}
沙发等你来抢
去评论
评论
沙发等你来抢