Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts

2024年05月22日
  • 简介
    本文介绍了混合专家模型中最常用的softmax门控函数。尽管softmax门控函数在实践中被广泛使用,但它可能会导致专家之间的不必要竞争,从而可能导致表示崩溃现象。为了应对这个问题,最近提出了sigmoid门控函数作为替代方案,并在实证研究中证明了其具有更优越的性能。然而,目前文献中缺乏对sigmoid门控函数的严格研究。因此,本文从理论上验证了sigmoid门控函数在专家估计的统计任务中比softmax门控函数具有更高的样本效率。为了达到这个目标,本文考虑了一个回归框架,其中未知回归函数被建模为专家混合,研究了在过度拟合情况下(拟合的专家数量大于真实值)最小二乘估计器的收敛速度。我们展示了两种门控机制的自然产生,并在每种机制中制定了专家函数的可识别性条件,并得出了相应的收敛速度。在这两种情况下,我们发现使用常用激活函数(如ReLU和GELU)的前馈网络作为专家在sigmoid门控函数下比softmax门控函数下具有更快的收敛速度。此外,对于相同的专家选择,我们证明sigmoid门控函数需要比softmax门控函数更少的样本量才能达到相同的专家估计误差,因此更具有样本效率。
  • 图表
  • 解决问题
    论文旨在验证Sigmoid门控函数在专家估计统计任务中比Softmax门控函数更高的样本效率。论文提出Sigmoid门控函数作为Softmax门控函数的替代方案,解决了Softmax门控函数可能导致的专家之间的不必要竞争和表示崩溃问题。
  • 关键思路
    论文通过回归框架来验证Sigmoid门控函数的样本效率,推导了Sigmoid和Softmax门控函数下的专家函数可辨识性条件,并得出了相应的收敛速率。结果表明,在相同的专家选择下,Sigmoid门控函数需要比Softmax门控函数更少的样本来达到相同的专家估计误差。
  • 其它亮点
    论文设计了实验来验证Sigmoid门控函数的样本效率,并使用了常用的激活函数,如ReLU和GELU。论文还提供了专家估计误差的收敛速率分析,以及专家函数可辨识性条件的推导。论文的结果表明,Sigmoid门控函数比Softmax门控函数更加高效。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Mixture of Experts with Adaptive Competence》和《A Theoretical Analysis of Deep Linear Networks with Random Initialization》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论