- 简介本文介绍了基于Transformer的大型语言模型(LLMs)在各个领域上的重要影响,但是LLMs的效率受到了计算和存储开销的影响。为了缓解LLMs的计算和存储开销与硬件容量之间的差距,通常使用压缩技术,如稀疏化和量化。然而,现有的GPU和基于Transformer的加速器不能有效地处理压缩的LLMs,因为存在以下未解决的挑战:低计算效率、未充分利用的存储带宽和大量的编译开销。本文提出了FlightLLM,在FPGA上实现了高效的LLMs推理。在FlightLLM中,我们提出了一种创新的解决方案,即通过利用FPGA特定的资源(例如,DSP48和异构内存层次结构)来解决LLMs的计算和存储开销。我们提出了一种可配置的稀疏DSP链来支持不同的稀疏模式,并具有高计算效率。其次,我们提出了一种始终开启的芯片解码方案,以混合精度支持提高存储带宽。最后,为了使FlightLLM适用于现实世界的LLMs,我们提出了一种长度自适应的编译方法来减少编译开销。在Xilinx Alveo U280 FPGA上实现的FlightLLM,使用vLLM和SmoothQuant,在批量大小为1的现代LLMs(例如LLaMA2-7B)上,能够实现6.0倍的能量效率和1.8倍的成本效率,优于商用GPU(例如NVIDIA V100S)。使用最新的Versal VHK158 FPGA,FlightLLM比NVIDIA A100 GPU具有1.2倍的吞吐量。
- 图表
- 解决问题提高Transformer-based Large Language Models(LLMs)的计算和内存效率,以便与硬件容量相匹配
- 关键思路利用FPGA特定资源(例如DSP48和异构内存层次结构)来解决LLMs的计算和内存开销,提出可配置的稀疏DSP链以支持不同的稀疏模式,提出一种始终运行的芯片解码方案来提高内存带宽,并提出一种长度自适应编译方法来降低编译开销
- 其它亮点实现在Xilinx Alveo U280 FPGA上,与商用GPU相比,FlightLLM在现代LLMs上(例如LLaMA2-7B)使用vLLM和SmoothQuant在批量大小为1的情况下实现了6.0倍的能量效率和1.8倍的成本效率,使用最新的Versal VHK158 FPGA击败了NVIDIA A100 GPU,具有1.2倍的吞吐量
- 与压缩技术相关的研究,如稀疏化和量化,以提高LLMs的效率
沙发等你来抢
去评论
评论
沙发等你来抢