OpenGeMM: A High-Utilization GeMM Accelerator Generator with Lightweight RISC-V Control and Tight Memory Coupling

2024年11月14日
  • 简介
    深度神经网络(DNNs)由于其计算密集和数据密集的特性,在部署到资源受限的边缘设备时面临重大挑战。虽然针对特定应用场景定制的独立加速器存在控制不灵活和可编程性有限的问题,但与RISC-V CPU结合的通用硬件加速平台可以实现高可重用性和灵活性,不过通常以系统级效率低下和利用率低为代价。为了填补这一空白,我们提出了OpenGeMM,这是一个开源加速平台,同时展示了高效率和利用率,以及易于配置和编程的特点。OpenGeMM包括一个参数化的Chisel编码的矩阵乘法(GeMM)加速器、一个轻量级的RISC-V处理器和一个紧密耦合的多银行暂存存储器。通过三种机制:配置预加载、输入预取与输出缓冲以及可编程的跨步内存访问,提高了GeMM核心利用率和系统效率。实验结果表明,OpenGeMM在各种卷积神经网络(CNN)和变换器(Transformer)工作负载中,硬件利用率始终在81.89%到99.34%之间。与最先进的开源Gemmini加速器相比,OpenGeMM在广泛的GeMM工作负载中,归一化吞吐量提升了3.58倍至16.40倍,同时实现了4.68 TOPS/W的系统效率。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决在资源受限的极端边缘设备上部署深度神经网络(DNNs)时面临的计算和数据密集型挑战。现有的专用加速器虽然性能高,但灵活性和可编程性较差,而通用硬件加速平台虽然灵活,但系统效率和利用率较低。
  • 关键思路
    论文提出了一种名为OpenGeMM的开源加速平台,通过参数化的Chisel编码的GeMM加速器、轻量级RISC-V处理器和紧密耦合的多银行缓存内存,实现了高效率和利用率,同时保持了配置和编程的便利性。关键机制包括配置预加载、输入预取与输出缓冲,以及可编程的跨步内存访问。
  • 其它亮点
    实验结果显示,OpenGeMM在多种CNN和Transformer工作负载下,硬件利用率可达81.89%到99.34%,相比最先进的Gemmini加速器,OpenGeMM在归一化吞吐量上实现了3.58倍到16.40倍的加速,并且达到了4.68 TOPS/W的系统效率。此外,该平台是开源的,为未来的研究提供了基础。
  • 相关研究
    近年来,针对边缘设备上的DNN加速,出现了许多相关研究,例如: 1. "Gemmini: A Parameterizable Matrix Multiply Accelerator" 2. "Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks" 3. "FlexFlow: A High-Throughput Architecture for Flexible DNN Acceleration"
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问