- 简介激活函数是所有深度学习架构的核心组件。目前,最流行的激活函数是像GELU和SiLU这样的平滑ReLU变体。这些是自门控激活函数,其中门控函数的范围在零和一之间。在本文中,我们探讨了使用反正切作为门控机制的可行性。使用反正切作为门控函数的自门控激活函数具有单调递增的一阶导数。为了使这个激活函数具有竞争力,需要为每个MLP块引入一个可训练参数,以扩展门控函数的范围超出零和一。我们发现,这种技术也改善了现有的自门控激活函数。我们对扩展ArcTan线性单元(xATLU)、扩展GELU(xGELU)和扩展SiLU(xSiLU)进行了实证评估,并展示它们在变压器架构中优于现有的激活函数。此外,扩展门控范围在改善一阶门控线性单元(GLU)方面表现出有希望的结果。
-
- 图表
- 解决问题本论文旨在探索使用arctan作为门控机制的自门控激活函数的可行性,并引入可训练参数来扩展门控函数的范围。同时,论文还试图改进现有的自门控激活函数,提高其性能。
- 关键思路论文的关键思路是使用arctan作为门控机制的自门控激活函数,并引入可训练参数来扩展门控函数的范围,以提高性能。
- 其它亮点论文进行了实验评估,比较了Expanded ArcTan Linear Unit (xATLU)、Expanded GELU (xGELU)和Expanded SiLU (xSiLU)等自门控激活函数在transformer架构中的性能。实验结果表明,这些自门控激活函数优于现有的激活函数。同时,扩展门控函数的范围对于改进一阶门控线性单元(GLU)也具有良好的效果。
- 当前领域中的相关研究包括:Smooth ReLU变体(如GELU和SiLU)等自门控激活函数的研究。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流