SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

2024年07月05日
  • 简介
    最近大规模语言模型(LLMs)的进展,拥有数十亿个参数,显著提高了它们在各种实际应用中的性能。然而,这些模型的推理过程需要大量的能量和计算资源,存在着相当大的部署挑战。相比之下,人类大脑包含大约860亿个生物神经元,与具有相似参数数量的LLMs相比,其表现出更高的能量效率。受此启发,我们使用生物可行的尖峰机制重新设计了7到70亿个参数的LLMs,模拟了人类大脑的高效行为。我们提出了第一个尖峰大语言模型SpikeLLM,结合所提出的模型,引入了一种新的基于尖峰的量化框架,称为Optimal Brain Spiking,通过两种基本方法来减少能量成本和加速推理速度:基于一阶(二阶)微分的显著通道检测和使用广义积分-火神经元进行通道显著异常扩展。我们提出的基于尖峰的量化可以插入量化训练方法的主流。在OmniQuant管道中,SpikeLLM显着降低了25.51%的WikiText2困惑度,并提高了6个零-shot数据集的3.08%平均准确性,这些数据集在LLAMA2-7B 4A4W模型上进行。在GPTQ管道中,SpikeLLM实现了一种稀疏三元量化,可以在所有线性层中实现加性。与具有类似操作的PB-LLM相比,SpikeLLM也显着超越。我们将在GitHub上发布我们的代码。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在通过仿生脉冲机制重新设计大型语言模型(LLMs),以提高它们的能源效率和计算资源利用率。这是一个新问题吗?
  • 关键思路
    论文提出了一种基于脉冲神经元的大型语言模型SpikeLLM,以及一种新的脉冲驱动量化框架Optimal Brain Spiking,通过一些关键方法来减少能源消耗和加速推理速度。
  • 其它亮点
    论文使用了OmniQuant和GPTQ两个量化训练方法,分别在WikiText2和6个零样本数据集上进行实验,结果显示SpikeLLM在减少25.51%的perplexity和提高3.08%的平均准确率方面具有显著优势。论文还公开了代码。
  • 相关研究
    最近的相关研究包括《Efficient Transformers: A Survey》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问