ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs

2024年02月06日
  • 简介
    稀疏计算为在低资源场景下推断大型语言模型(LLM)提供了一种引人注目的解决方案,通过动态跳过非活跃神经元的计算。传统方法侧重于基于ReLU的LLM,利用激活值中的零值,而我们将稀疏LLM的范围扩展到超出零激活值的范围。我们介绍了一种通用方法,通过神经元输出大小和定制的大小阈值来定义神经元激活,证明非ReLU LLM也表现出稀疏激活。为了找到最有效的稀疏计算激活函数,我们提出了一个系统框架,从三个方面考察LLM的稀疏性:稀疏性与性能之间的权衡、稀疏性的预测性和硬件亲和性。我们对使用不同激活函数的LLM进行了彻底的实验,包括ReLU、SwiGLU、ReGLU和ReLU$^2$。结果表明,采用ReLU$^2$的模型在所有三个评估方面表现出色,突显了它作为稀疏LLM的有效激活函数的潜力。我们将发布代码以促进未来的研究。
  • 图表
  • 解决问题
    本论文旨在解决在低资源场景下,大型语言模型(LLMs)的推理问题。作者提出了一种稀疏计算的方法,通过动态跳过不活跃神经元的计算,实现推理过程的高效率。
  • 关键思路
    本文提出了一种通用的方法,通过神经元输出幅度和定制化的幅度阈值来定义神经元激活,从而实现非ReLU LLMs的稀疏激活。作者还提出了一个系统性的框架,从三个方面来评估LLMs的稀疏性:稀疏性和性能之间的平衡、稀疏性的预测性以及硬件亲和性。实验结果表明,使用ReLU$^2$作为激活函数的模型在所有三个评估方面均表现优异,这表明其在稀疏LLMs中作为一种高效的激活函数具有潜力。
  • 其它亮点
    本文的实验设计非常详细,使用了多种不同的激活函数,并对其进行了全面的比较和评估。作者还将代码开源,便于未来的研究。此外,本文提出的通用方法可以为非ReLU LLMs的稀疏计算提供一种新的思路。
  • 相关研究
    近期的相关研究包括《Deep Learning with Sparse ReLU Activations》、《Sparse Networks from Scratch: Faster Training without Losing Performance》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论