Mixture of A Million Experts

2024年07月04日
  • 简介
    标准Transformer架构中的前馈(FFW)层随着隐藏层宽度的增加,会导致计算成本和激活内存的线性增加。稀疏的专家混合(MoE)架构已经成为一种可行的方法,通过将模型大小与计算成本分离来解决这个问题。最近发现的细粒度MoE缩放定律表明,更高的粒度可以带来更好的性能。然而,由于计算和优化挑战的限制,现有的MoE模型仅限于少量的专家。本文介绍了一种新的层设计PEER(参数高效的专家检索),它利用了产品键技术从超过一百万个微小专家的广泛池中进行稀疏检索。语言建模任务的实验表明,PEER层在性能-计算权衡方面优于密集的FFW和粗粒度的MoE。通过实现对大量专家的高效利用,PEER释放了Transformer模型进一步扩展的潜力,同时保持计算效率。
  • 图表
  • 解决问题
    论文旨在解决Transformer架构中FFW层的计算成本和激活内存线性增长的问题,提出一种利用参数高效检索技术的稀疏MoE层设计,以解决现有MoE模型在计算和优化方面的限制,从而实现更高效的模型扩展。
  • 关键思路
    论文提出了一种名为PEER的新型稀疏MoE层设计,利用产品键技术从超过一百万个微小专家中进行稀疏检索,实现了对大量专家的高效利用。PEER层在语言建模任务中的表现优于密集FFW和粗粒度MoE,同时保持计算效率,为Transformer模型的进一步扩展提供了可能。
  • 其它亮点
    论文在多个语言建模任务上进行了实验,证明了PEER层的有效性和高效性。此外,论文还开源了代码和数据集,为后续研究提供了便利。
  • 相关研究
    近期的相关研究包括《Scaling Laws for Neural Language Models》、《Adaptive Attention Span in Transformers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论