TeLU Activation Function for Fast and Stable Deep Learning

简介

我们提出了一种新的神经网络隐藏层激活函数——双曲正切指数线性单元（TeLU），其定义为 TeLU(x) = x * tanh(exp(x))。TeLU 的设计基于关键激活函数的核心原则，在其活跃区域中近似于恒等函数，从而实现强大的收敛性，同时在其饱和区域有效缓解梯度消失问题。其简单的公式增强了计算效率，从而提高了可扩展性和收敛速度。与许多现代激活函数不同，TeLU 无缝结合了 ReLU 的简单性和有效性以及深度神经网络学习稳定性所需的平滑性和分析特性。TeLU 能够模仿 ReLU 的行为和最优超参数设置，同时引入平滑性和曲率的优势，使其成为理想的替代方案。TeLU 的分析性质使其成为一个强大的通用逼近器，增强了在多种实验中的稳健性和泛化能力。我们通过理论分析和实验验证严格验证了这些主张，展示了 TeLU 在多个具有挑战性的基准测试中的性能表现，包括 ImageNet 上的 ResNet18、Text8 上的动态池化变换器以及 Penn TreeBank 数据集上的循环神经网络（RNN）。这些结果突显了 TeLU 在激活函数领域设定新标准的潜力，推动了更高效和稳定的深度神经网络学习，从而加速各领域的科学发现。
图表
解决问题

该论文试图通过提出一种新的激活函数——双曲正切指数线性单元（TeLU），来解决神经网络中的梯度消失问题，并提升模型的收敛速度和计算效率。这并不是一个全新的问题，但该激活函数的设计旨在优化现有方法的性能。
关键思路

关键思路在于结合ReLU的简单性和有效性与光滑性和解析性质，以实现更稳定的学习过程。TeLU定义为TeLU(x)=x*tanh(exp(x))，这种设计使得它在活跃区域近似于恒等函数，在饱和区域有效缓解了梯度消失的问题。相比于现有的激活函数，TeLU提供了更好的数学属性，有助于提高模型的泛化能力和鲁棒性。
其它亮点

论文展示了TeLU在多个基准测试上的优异表现，包括ResNet18在ImageNet上的图像分类任务、Dynamic-Pooling Transformers在Text8上的文本处理任务以及RNNs在Penn TreeBank数据集上的语言模型任务。此外，作者还进行了理论分析以支持其实验结果。值得注意的是，TeLU作为一个简单的公式，不仅增强了计算效率，而且可以作为其他激活函数的理想替代品。目前没有提到开源代码的具体信息，但这方面的开放可能会促进更多后续研究。
相关研究

最近在这个领域中，有几项相关研究值得关注： 1. 'Mish: A Self Regularized Non-Monotonic Neural Activation Function' 提出了另一种非单调激活函数。 2. 'Swish: a Self-Gated Activation Function' 引入了由Google Brain提出的自门控激活函数。 3. 'Gaussian Error Linear Units (GELUs)' 探讨了一种基于高斯误差的线性单元。这些研究都试图通过改进激活函数来增强深度学习模型的表现。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论