Optimizing Foundation Model Inference on a Many-tiny-core Open-source RISC-V Platform

2024年05月29日
  • 简介
    基于Transformer的基础模型已经成为各个领域的关键技术,尤其是自然语言处理(NLP)或计算机视觉(CV)。这些模型主要部署在高性能GPU或硬件加速器上,具有高度定制的专有指令集。迄今为止,RISC-V基础通用平台受到的关注有限。在我们的工作中,我们展示了第一个在开源的many-tiny-core RISC-V平台上实现分布式Softmax原语和利用ISA扩展进行SIMD浮点运算操作流和指令重复的Transformer模型的端到端推理结果,并利用专用DMA引擎来最小化昂贵的主存访问并容忍其延迟。我们专注于两个基础Transformer拓扑结构,即仅编码器模型和仅解码器模型。对于仅编码器模型,我们展示了最优化实现和基线版本之间高达12.8倍的加速。我们达到了超过79%的FPU利用率和294 GFLOPS/W的性能,利用硬件平台超过2倍的超越了最先进的加速器,同时实现了每个计算单元的可比吞吐量。对于仅解码器拓扑结构,在非自回归(NAR)模式下,我们实现了16.1倍的加速,在自回归(AR)模式下,与基线实现相比,实现了高达35.6倍的加速。与最佳SoA专用加速器相比,我们实现了2.04倍的更高FPU利用率。
  • 图表
  • 解决问题
    本论文旨在探索在RISC-V平台上实现transformer模型的端到端推理结果,并展示其在encoder-only和decoder-only模型方面的优化效果。
  • 关键思路
    论文中提出了使用分布式Softmax原语和ISA扩展来实现SIMD浮点操作流和指令重复,以及专用DMA引擎来最小化昂贵的主内存访问和容忍其延迟的方法。在encoder-only模型方面,实现了最优化版本和基线版本之间高达12.8倍的加速比;在decoder-only模型方面,实现了16.1倍的加速比(非自回归模式)和35.6倍的加速比(自回归模式)。
  • 其它亮点
    论文展示了在RISC-V平台上实现transformer模型的端到端推理结果。实验结果表明,在encoder-only和decoder-only模型方面,该方法优于现有的加速器。此外,论文还使用了专用DMA引擎来最小化昂贵的主内存访问和容忍其延迟,从而实现更高的性能。
  • 相关研究
    最近的相关研究包括使用GPU和FPGA加速器实现transformer模型的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论