FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGA

简介

本文介绍了基于Transformer的大型语言模型（LLMs）在各个领域上的重要影响，但是LLMs的效率受到了计算和存储开销的影响。为了缓解LLMs的计算和存储开销与硬件容量之间的差距，通常使用压缩技术，如稀疏化和量化。然而，现有的GPU和基于Transformer的加速器不能有效地处理压缩的LLMs，因为存在以下未解决的挑战：低计算效率、未充分利用的存储带宽和大量的编译开销。本文提出了FlightLLM，在FPGA上实现了高效的LLMs推理。在FlightLLM中，我们提出了一种创新的解决方案，即通过利用FPGA特定的资源（例如，DSP48和异构内存层次结构）来解决LLMs的计算和存储开销。我们提出了一种可配置的稀疏DSP链来支持不同的稀疏模式，并具有高计算效率。其次，我们提出了一种始终开启的芯片解码方案，以混合精度支持提高存储带宽。最后，为了使FlightLLM适用于现实世界的LLMs，我们提出了一种长度自适应的编译方法来减少编译开销。在Xilinx Alveo U280 FPGA上实现的FlightLLM，使用vLLM和SmoothQuant，在批量大小为1的现代LLMs（例如LLaMA2-7B）上，能够实现6.0倍的能量效率和1.8倍的成本效率，优于商用GPU（例如NVIDIA V100S）。使用最新的Versal VHK158 FPGA，FlightLLM比NVIDIA A100 GPU具有1.2倍的吞吐量。
图表
解决问题

提高Transformer-based Large Language Models（LLMs）的计算和内存效率，以便与硬件容量相匹配
关键思路

利用FPGA特定资源（例如DSP48和异构内存层次结构）来解决LLMs的计算和内存开销，提出可配置的稀疏DSP链以支持不同的稀疏模式，提出一种始终运行的芯片解码方案来提高内存带宽，并提出一种长度自适应编译方法来降低编译开销
其它亮点

实现在Xilinx Alveo U280 FPGA上，与商用GPU相比，FlightLLM在现代LLMs上（例如LLaMA2-7B）使用vLLM和SmoothQuant在批量大小为1的情况下实现了6.0倍的能量效率和1.8倍的成本效率，使用最新的Versal VHK158 FPGA击败了NVIDIA A100 GPU，具有1.2倍的吞吐量
相关研究

与压缩技术相关的研究，如稀疏化和量化，以提高LLMs的效率

FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGA

评论