A Method on Searching Better Activation Functions

2024年05月19日
  • 简介
    人工神经网络(ANNs)的成功在很大程度上取决于对激活函数的谨慎选择,引入非线性到网络中,使其能够对数据中的复杂关系进行建模。然而,过去对激活函数的搜索在很大程度上依赖于经验知识,缺乏理论指导,这阻碍了更有效的激活函数的识别。在这项工作中,我们提供了一个适当的解决方案。首先,我们从信息熵的角度理论上证明了最坏激活函数存在于边界条件下(WAFBC)。此外,受到信息熵函数的泰勒展开形式的启发,我们提出了基于熵的激活函数优化(EAFO)方法。 EAFO方法提供了一种设计深度神经网络中静态激活函数的新视角,以及在迭代训练期间动态优化激活的潜力。利用EAFO方法,我们从ReLU导出了一种新的激活函数,称为修正正则化ReLU(CRReLU)。在CIFAR-10、CIFAR-100和ImageNet-1K数据集上使用视觉变换器及其变体进行的实验表明,CRReLU优于现有的ReLU修正。在大型语言模型(LLM)微调任务的广泛实证研究中,CRReLU表现出优于GELU的性能,表明它在实际应用中具有更广泛的潜力。
  • 图表
  • 解决问题
    论文旨在解决激活函数选择的问题,提出了一种基于信息熵的激活函数优化方法,以及一种新的激活函数CRReLU。
  • 关键思路
    论文通过信息熵理论证明了最差激活函数的存在,并提出了基于信息熵的激活函数优化方法EAFO,用于设计静态激活函数和动态优化激活函数。通过EAFO方法,提出了一种新的激活函数CRReLU,它是基于ReLU的一种修正激活函数。
  • 其它亮点
    论文在CIFAR-10、CIFAR-100和ImageNet-1K数据集上使用CRReLU对视觉变换器及其变体进行了实验,证明了其优于现有的ReLU修正方法。此外,在大型语言模型(LLM)微调任务中,CRReLU表现出优异的性能,比GELU更好。论文提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Searching for Activation Functions》、《On the Difficulty of Training Recurrent Neural Networks》、《ReLU Networks Fail to Learn on Randomly Initialized Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论