ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs

简介

稀疏计算为在低资源场景下推断大型语言模型（LLM）提供了一种引人注目的解决方案，通过动态跳过非活跃神经元的计算。传统方法侧重于基于ReLU的LLM，利用激活值中的零值，而我们将稀疏LLM的范围扩展到超出零激活值的范围。我们介绍了一种通用方法，通过神经元输出大小和定制的大小阈值来定义神经元激活，证明非ReLU LLM也表现出稀疏激活。为了找到最有效的稀疏计算激活函数，我们提出了一个系统框架，从三个方面考察LLM的稀疏性：稀疏性与性能之间的权衡、稀疏性的预测性和硬件亲和性。我们对使用不同激活函数的LLM进行了彻底的实验，包括ReLU、SwiGLU、ReGLU和ReLU$^2$。结果表明，采用ReLU$^2$的模型在所有三个评估方面表现出色，突显了它作为稀疏LLM的有效激活函数的潜力。我们将发布代码以促进未来的研究。
图表
解决问题

本论文旨在解决在低资源场景下，大型语言模型（LLMs）的推理问题。作者提出了一种稀疏计算的方法，通过动态跳过不活跃神经元的计算，实现推理过程的高效率。
关键思路

本文提出了一种通用的方法，通过神经元输出幅度和定制化的幅度阈值来定义神经元激活，从而实现非ReLU LLMs的稀疏激活。作者还提出了一个系统性的框架，从三个方面来评估LLMs的稀疏性：稀疏性和性能之间的平衡、稀疏性的预测性以及硬件亲和性。实验结果表明，使用ReLU$^2$作为激活函数的模型在所有三个评估方面均表现优异，这表明其在稀疏LLMs中作为一种高效的激活函数具有潜力。
其它亮点

本文的实验设计非常详细，使用了多种不同的激活函数，并对其进行了全面的比较和评估。作者还将代码开源，便于未来的研究。此外，本文提出的通用方法可以为非ReLU LLMs的稀疏计算提供一种新的思路。
相关研究

近期的相关研究包括《Deep Learning with Sparse ReLU Activations》、《Sparse Networks from Scratch: Faster Training without Losing Performance》等。

ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs

评论