HLSTransform: Energy-Efficient Llama 2 Inference on FPGAs Via High Level Synthesis

2024年04月29日
  • 简介
    图形处理单元(GPU)已成为深度学习应用中主要的硬件加速器,并广泛用于 transformer 的训练和推理;transformer 在许多机器学习领域取得了最先进的性能,并且特别用于现代大型语言模型(LLM)。然而,GPU 需要大量能量,这带来了环境问题,要求高昂的运营成本,并导致 GPU 不适用于边缘计算。我们使用高级综合(HLS)在现场可编程门阵列(FPGA)上开发了 transformer 的加速器,即 Llama 2,这是一个开源的最先进的 LLM。HLS 允许我们快速原型化 FPGA 设计,而无需编写寄存器传输级别(RTL)的代码。我们称之为 HLSTransform 方法,并且使用 HLS 合成的 FPGA 设计与 Intel Xeon Broadwell E5-2686 v4 CPU 和 NVIDIA RTX 3090 GPU 相比,在 Xilinx Virtex UltraScale+ VU9P FPGA 上每个标记使用的能量分别减少了高达 12.75 倍和 8.25 倍,同时将推理速度提高了高达 2.46 倍,相比于 CPU,保持了 0.53 倍的 RTX 3090 GPU 速度,尽管 GPU 的基础时钟速率高 4 倍。由于缺乏现有的用于 transformer 的开源 FPGA 加速器,我们开源我们的代码,并记录我们的综合步骤。我们希望这项工作将成为民主化在 transformer 推理中使用 FPGA 的一步,并激发对整个能效推理方法的研究。该代码可在 https://github.com/HLSTransform/submission 上找到。
  • 图表
  • 解决问题
    开发一种用于transformer加速器的解决方案,以减少GPU所需的大量能源和高运营成本,同时适用于边缘计算。
  • 关键思路
    使用高级综合(HLS)在可编程门阵列(FPGA)上进行合成,开发了一种名为HLSTransform的加速器。使用HLSTransform合成的FPGA设计,相比于Intel Xeon Broadwell E5-2686 v4 CPU和NVIDIA RTX 3090 GPU,每个标记使用的能量分别减少了12.75x和8.25x,同时将推理速度提高了最多2.46x。此外,该论文开源了代码并记录了合成步骤。
  • 其它亮点
    该论文在transformer加速器领域提出了一种新的解决方案,可以减少GPU所需的大量能源和高运营成本。使用HLSTransform合成的FPGA设计可以显著提高推理速度并降低能源消耗。该论文开源了代码并记录了合成步骤,可供其他研究者使用和参考。
  • 相关研究
    最近的相关研究包括:1)使用FPGA加速深度学习模型的研究;2)使用HLS合成FPGA设计的研究;3)使用transformer加速器进行推理的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论