Optimizing Foundation Model Inference on a Many-tiny-core Open-source RISC-V Platform

简介

基于Transformer的基础模型已经成为各个领域的关键技术，尤其是自然语言处理（NLP）或计算机视觉（CV）。这些模型主要部署在高性能GPU或硬件加速器上，具有高度定制的专有指令集。迄今为止，RISC-V基础通用平台受到的关注有限。在我们的工作中，我们展示了第一个在开源的many-tiny-core RISC-V平台上实现分布式Softmax原语和利用ISA扩展进行SIMD浮点运算操作流和指令重复的Transformer模型的端到端推理结果，并利用专用DMA引擎来最小化昂贵的主存访问并容忍其延迟。我们专注于两个基础Transformer拓扑结构，即仅编码器模型和仅解码器模型。对于仅编码器模型，我们展示了最优化实现和基线版本之间高达12.8倍的加速。我们达到了超过79％的FPU利用率和294 GFLOPS/W的性能，利用硬件平台超过2倍的超越了最先进的加速器，同时实现了每个计算单元的可比吞吐量。对于仅解码器拓扑结构，在非自回归（NAR）模式下，我们实现了16.1倍的加速，在自回归（AR）模式下，与基线实现相比，实现了高达35.6倍的加速。与最佳SoA专用加速器相比，我们实现了2.04倍的更高FPU利用率。
图表
解决问题

本论文旨在探索在RISC-V平台上实现transformer模型的端到端推理结果，并展示其在encoder-only和decoder-only模型方面的优化效果。
关键思路

论文中提出了使用分布式Softmax原语和ISA扩展来实现SIMD浮点操作流和指令重复，以及专用DMA引擎来最小化昂贵的主内存访问和容忍其延迟的方法。在encoder-only模型方面，实现了最优化版本和基线版本之间高达12.8倍的加速比；在decoder-only模型方面，实现了16.1倍的加速比（非自回归模式）和35.6倍的加速比（自回归模式）。
其它亮点

论文展示了在RISC-V平台上实现transformer模型的端到端推理结果。实验结果表明，在encoder-only和decoder-only模型方面，该方法优于现有的加速器。此外，论文还使用了专用DMA引擎来最小化昂贵的主内存访问和容忍其延迟，从而实现更高的性能。
相关研究

最近的相关研究包括使用GPU和FPGA加速器实现transformer模型的研究。

Optimizing Foundation Model Inference on a Many-tiny-core Open-source RISC-V Platform

评论