FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGA

2024年01月08日
  • 简介
    本文介绍了基于Transformer的大型语言模型(LLMs)在各个领域上的重要影响,但是LLMs的效率受到了计算和存储开销的影响。为了缓解LLMs的计算和存储开销与硬件容量之间的差距,通常使用压缩技术,如稀疏化和量化。然而,现有的GPU和基于Transformer的加速器不能有效地处理压缩的LLMs,因为存在以下未解决的挑战:低计算效率、未充分利用的存储带宽和大量的编译开销。本文提出了FlightLLM,在FPGA上实现了高效的LLMs推理。在FlightLLM中,我们提出了一种创新的解决方案,即通过利用FPGA特定的资源(例如,DSP48和异构内存层次结构)来解决LLMs的计算和存储开销。我们提出了一种可配置的稀疏DSP链来支持不同的稀疏模式,并具有高计算效率。其次,我们提出了一种始终开启的芯片解码方案,以混合精度支持提高存储带宽。最后,为了使FlightLLM适用于现实世界的LLMs,我们提出了一种长度自适应的编译方法来减少编译开销。在Xilinx Alveo U280 FPGA上实现的FlightLLM,使用vLLM和SmoothQuant,在批量大小为1的现代LLMs(例如LLaMA2-7B)上,能够实现6.0倍的能量效率和1.8倍的成本效率,优于商用GPU(例如NVIDIA V100S)。使用最新的Versal VHK158 FPGA,FlightLLM比NVIDIA A100 GPU具有1.2倍的吞吐量。
  • 图表
  • 解决问题
    提高Transformer-based Large Language Models(LLMs)的计算和内存效率,以便与硬件容量相匹配
  • 关键思路
    利用FPGA特定资源(例如DSP48和异构内存层次结构)来解决LLMs的计算和内存开销,提出可配置的稀疏DSP链以支持不同的稀疏模式,提出一种始终运行的芯片解码方案来提高内存带宽,并提出一种长度自适应编译方法来降低编译开销
  • 其它亮点
    实现在Xilinx Alveo U280 FPGA上,与商用GPU相比,FlightLLM在现代LLMs上(例如LLaMA2-7B)使用vLLM和SmoothQuant在批量大小为1的情况下实现了6.0倍的能量效率和1.8倍的成本效率,使用最新的Versal VHK158 FPGA击败了NVIDIA A100 GPU,具有1.2倍的吞吐量
  • 相关研究
    与压缩技术相关的研究,如稀疏化和量化,以提高LLMs的效率
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论